PENDAHULUAN

Latar Belakang

Penyakit diabetes adalah salah satu masalah kesehatan global yang signifikan. Menurut Organisasi Kesehatan Dunia (WHO), jumlah penderita diabetes terus meningkat secara global dan diabetes mellitus tipe 2 merupakan jenis yang paling umum di seluruh dunia. Diabetes mellitus tipe 2 berkaitan erat dengan faktor-faktor risiko tertentu, seperti kadar glukosa darah tinggi, resistensi insulin, indeks massa tubuh (BMI) yang tinggi, dan faktor usia.

Pemahaman lebih mendalam tentang bagaimana variabel-variabel ini berkontribusi terhadap risiko penyakit diabetes sangat penting dalam upaya pencegahan, diagnosis, dan manajemen penyakit. Selama beberapa dekade terakhir, analisis multivariat telah menjadi pendekatan yang efektif dalam mengidentifikasi hubungan kompleks antara variabel-variabel tersebut.

Dalam konteks ini, penelitian ini bertujuan untuk melakukan analisis multivariat terhadap pengaruh variabel Glukosa, Insulin, BMI, dan Usia terhadap penyakit diabetes. Penggunaan Uji T^2 Hotelling dalam penelitian ini akan memungkinkan kita untuk menguji secara komprehensif apakah kombinasi dari variabel-variabel ini secara bersama-sama berperan dalam mempengaruhi keberadaan penyakit diabetes.

Penelitian ini diharapkan dapat memberikan pemahaman yang lebih baik tentang pengaruh variabel Glukosa, Insulin, BMI, dan Usia terhadap penyakit diabetes, yang pada gilirannya dapat membantu dalam pengembangan strategi pencegahan dan manajemen yang lebih efektif untuk penyakit ini.`

Tinjauan Pustaka

Uji Normalitas Mardia

Mardia Test adalah uji statistik yang digunakan untuk menguji asumsi kenormalan dalam data multivariat. Uji ini dinamai dari nama ilmuwan statistik Sir Radha Kant Mardia. Mardia Test bertujuan untuk menentukan apakah data multivariat yang diamati dapat dianggap berasal dari distribusi multivariat normal. Selain itu, penolakan terhadap normalitas menggunakan uji Mardia menandai adanya kehadiran outlier (pencilan) multivariat. Oleh karena itu, uji ini dapat bermanfaat ganda yaitu untuk mengecek normalitas multivariat sekaligus mengecek kehadiran pencilan (Sutrisno dan Wulandari, 2018).

Uji Normalitas Mardia memiliki hipotesis sebagai berikut:

H0: Data berasal dari distribusi normal multivariat

H1: Data tidak berasal dari distribusi normal multivariat

Dengan rumus skewness: \[ b_{M, 1}=\frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n\left\{\left(x_i-\bar{x}\right)^{\prime} S_d^{-1}\left(x_j-\bar{x}\right)\right\}^3 \]

dan rumus kurtosis: \[ b_{M, 2}=\frac{1}{n} \sum_{i=1}^n\left\{\left(x_i-\bar{x}\right)^{\prime} S_d^{-1}\left(x_i-\bar{x}\right)\right\}^2 . \]

Dimana:

• jika x adalah sampel acak dari distribusi normal Np (μ,∑) maka \[ z_{M, 1}=\frac{n}{6} b_{M, 1} \] berdistribusi X^2 secara asimtotik dengan derajat bebas: \[ f=p(p+1)(p+2) / 6 \]

• jika x adalah sampel acak dari distribusi normal N (0,1) maka \[ Z_{M, 2}=\sqrt{\frac{n}{8 p(p+2)}}\left(b_{M, 2}-p(p+1)\right) \] berdistribusi asimtotik N (0,1).

Uji Normalitas Henze Zirkler

Uji Henze-Zirkler adalah metode statistik yang digunakan untuk menguji apakah distribusi data yang diamati sesuai dengan distribusi normal multivariat atau tidak. Ini adalah salah satu uji normalitas multivariat yang berguna dalam mengevaluasi asumsi kenormalan dalam analisis statistik. Uji ini cocok untuk digunakan ketika terdapat data yang mungkin tidak memenuhi asumsi kenormalan dan ingin diuji normalitasnya tanpa harus mengasumsikan distribusi tertentu.

Uji Normalitas Henze Zirkler memiliki hipotesis sebagai berikut:

H0: Data berasal dari distribusi normal multivariat

H1: Data tidak berasal dari distribusi normal multivariat

Dimana statistik uji-nya: \[ H Z=\frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n e^{-\frac{\beta^2}{2} D_{i j}}-2\left(1+\beta^2\right)^{-\frac{p}{2}} \frac{1}{n} \sum_{i=1}^n e^{-\frac{\beta^2}{2\left(1+\beta^2\right)} D_i}+\left(1+1 \beta^2\right)^{-\frac{p}{2}} \]

dengan: \[ \begin{aligned} \beta & =\frac{1}{\sqrt{2}}\left(\frac{n(2 p+1)}{4}\right)^{\frac{1}{p+4}} \\ D_{i j} & =\left(x_i-x_j\right)^T S^{-1}\left(x_i-x_j\right) \\ D_i & =\left(x_i-\bar{x}\right)^T S^{-1}\left(x_i-\bar{x}\right) \\ p & =\text { Jumlah variabel } \\ S^{-1} & =\text { Matriks Varians Kovarians } \end{aligned} \]

Uji Homogenitas BoxM

Menurut Rencher (2002), uji Homogenitas Box’s M merupakan perluasan dari uji Bartlett. Uji Box-M adalah uji statistik yang digunakan untuk menguji asumsi homogenitas kovariansi (homoskedastisitas) dalam analisis statistik. Asumsi homogenitas kovariansi menyiratkan bahwa variasi antara kelompok-kelompok yang dibandingkan dalam analisis statistik adalah sama atau seragam.

Uji Homogenitas BoxM memiliki hipotesis sebagai berikut:

H0: Terdapat homogenitas matriks kovarians antar kelompok

H1: Tidak terdapat homogenitas matriks kovarians antar kelompok

Dimana statistik uji-nya: \[ M=(n-k) \log |S|-\sum_{i=1}^k\left(n_i-1\right) \log \left|S_i\right| \]

dengan:

S = matriks kovarian

Uji T^2 Hotelling

Uji T^2 Hotelling adalah uji statistik yang digunakan dalam analisis multivariat untuk menguji perbedaan yang signifikan antara dua atau lebih kelompok dalam berbagai variabel dependen yang terkait. Menurut Nurhapilan dan Darwis (2023), T^2 Hotelling dilakukan untuk mendeteksi perubahan rata-rata proses menggunakan vektor rata-rata sampel dan matriks kovariansi. Uji ini dinamai dari ilmuwan statistik T.W. Hotelling, yang mengembangkan metodenya pada tahun 1930-an. Pada uji ini, pengujian vektor rata rata dilakukan secara serentak pada semua variabel. Dengan kata lain, Uji T^2-Hotelling adalah Uji-T namun pada kasus multivariabel.

Hipotesis bagi Uji T^2 Hotelling adalah sebagai berikut:

H0: Tidak terdapat perbedaan yang signifikan dalam vektor rata-rata antar kelompok

H1: Terdapat perbedaan yang signifikan dalam vektor rata-rata antar kelompok

Dimana fungsi Peluang Distribusi T^2-Hotelling didefinisikan berikut ini:

  • 1 Populasi \[ T^2=n\left(\overline{\mathbf{X}}-\mu_0\right)^{\prime} \mathbf{S}^{-1}\left(\overline{\mathbf{X}}-\mu_0\right) \]

dengan:

Xbar = vector rata-rata sampel

S = Matriks varians kovarians sampel

n = banyaknya sampel

Sehingga sebaran T^2 Hotelling dapat diaproksimasi dengan formulasi sebagai berikut: \[ T^2 \sim \frac{(n-1) p}{(n-p)} F_{p, n-p} \] dengan:

n = banyaknya sampel

p = banyaknya variabel

  • 2 Populasi

\[ T^2=\left[\overline{\mathbf{X}}_1-\overline{\mathbf{X}}_2-\left(\mu_1-\mu_2\right)\right]^{\prime}\left[\left(\frac{1}{n_1}+\frac{1}{n_2}\right) \mathbf{S}_{\text {pooled }}\right]^{-1}\left[\overline{\mathbf{X}}_1-\overline{\mathbf{X}}_2-\left(\mu_1-\mu_2\right)\right] \] dengan: \[ \mathbf{S}_{\text {pooled }}=\frac{n_1-1}{n_1+n_2-2} \mathbf{S}_1+\frac{n_2-1}{n_1+n_2-2} \mathbf{S}_2 \] Sehingga sebaran T^2 Hotelling dapat diaproksimasi dengan formulasi sebagai berikut: \[ T^2 \sim \frac{\left(n_1+n_2-2\right) p}{\left(n_1+n_2-p-1\right)} F_{p, n_1+n_2-p-1} \]

Tujuan Penelitian

Tujuan dari penelitian berjudul “Analisis T^2 Hotelling Pengaruh Glukosa, Insulin, Indeks Massa Tubuh, dan Usia Terhadap Penyakit Diabetes” adalah sebagai berikut:

  1. Menganalisis Pengaruh Variabel Independen:

Tujuan utama penelitian ini adalah untuk menganalisis dampak variabel independen, yaitu Glukosa, Insulin, Indeks Massa Tubuh (BMI), dan Usia, terhadap keberadaan penyakit diabetes. Dalam konteks analisis multivariat, akan dievaluasi apakah kombinasi variabel-variabel ini secara bersama-sama berperan dalam mempengaruhi risiko dan perkembangan diabetes.

  1. Mengidentifikasi Pola dan Hubungan:

Penelitian ini bertujuan untuk mengidentifikasi pola hubungan antara variabel independen dan variabel dependen, yaitu keberadaan penyakit diabetes. Akan dicaritau apakah ada asosiasi yang signifikan antara variabel Glukosa, Insulin, BMI, dan Usia dengan diagnosis diabetes.

Data

Dataset yang digunakan bertipe data kuantitatif dari website kaggle sebanyak 60 data mengenai Permasalahan Diabetes. Data tersebut memiliki variabel Glucose (Glukosa), Insuline (Insulin), BMI (Body Mass Index/Indeks Massa Tubuh), Age (Usia), dan Outcome (Hasil). Dalam analisis ini, empat variabel pertama digunakan sebagai variabel prediktor yang independen, sementara variabel kelima, yakni Outcome, menjadi variabel yang akan diprediksi atau variabel respon yang dependen.

SOURCE CODE

Library yang Dibutuhkan

> # Library
> library(readxl)
> library(MVN)
> library(MVTests)
> library(Hotelling)
> library(DescTools)

Import Data

> #Input Data
> data_diabetes = read_excel("D:/Kuliah/Semester 5/Analisis Multivariat/Praktikum/UTP/diabetes.xlsx")
> data_diabetes
# A tibble: 60 × 5
   Glucose Insulin   BMI   Age Outcome
     <dbl>   <dbl> <dbl> <dbl>   <dbl>
 1     165     255  47.9    26       1
 2     100     110  46.8    31       1
 3      81      48  46.7    42       1
 4      81      57  46.3    32       1
 5     154     140  46.1    27       1
 6     119     170  45.3    26       1
 7     117      53  45.2    24       1
 8      95     105  44.6    22       1
 9     114     285  44.2    27       1
10      94     115  43.5    21       1
# ℹ 50 more rows
> 
> #Split Data
> split <- split(data_diabetes[,-5], data_diabetes$`Outcome`)
> negatif<-split[['1']]
> negatif
# A tibble: 30 × 4
   Glucose Insulin   BMI   Age
     <dbl>   <dbl> <dbl> <dbl>
 1     165     255  47.9    26
 2     100     110  46.8    31
 3      81      48  46.7    42
 4      81      57  46.3    32
 5     154     140  46.1    27
 6     119     170  45.3    26
 7     117      53  45.2    24
 8      95     105  44.6    22
 9     114     285  44.2    27
10      94     115  43.5    21
# ℹ 20 more rows
> positif<-split[['2']]
> positif
# A tibble: 30 × 4
   Glucose Insulin   BMI   Age
     <dbl>   <dbl> <dbl> <dbl>
 1     122     220  49.7    31
 2     134     370  46.2    46
 3     144     180  46.1    46
 4     118     230  45.8    31
 5     119     220  45.6    29
 6     102     120  45.5    23
 7     174     120  44.5    24
 8     128     182  43.3    31
 9     137     168  43.1    33
10     151     210  42.9    36
# ℹ 20 more rows

Plot

> boxplot(data_diabetes$Glucose, main="Boxplot Glukosa")

> boxplot(data_diabetes$Age, main="Boxplot Usia")

> boxplot(data_diabetes$Insulin, main="Boxplot Insulin")

> boxplot(data_diabetes$BMI, main="Boxplot Indeks Massa Tubuh")

Uji Asumsi

Uji Normalitas Mardia

> norm.test = mvn(data = data_diabetes, subset = "Outcome", mvnTest = "mardia", multivariatePlot="qq")

> norm.test$multivariateNormality
$`1`
             Test          Statistic           p value Result
1 Mardia Skewness   29.7191752150575 0.074533613792581    YES
2 Mardia Kurtosis 0.0043698220580809 0.996513397542718    YES
3             MVN               <NA>              <NA>    YES

$`2`
             Test         Statistic           p value Result
1 Mardia Skewness  12.3984230052036 0.901680348701506    YES
2 Mardia Kurtosis -1.00052752522285 0.317055283878468    YES
3             MVN              <NA>              <NA>    YES

Uji Normalitas Henze Zirkler

> norm_hz = mvn(data = data_diabetes, mvnTest="hz", subset="Outcome")
> norm_hz$multivariateNormality
$`1`
           Test        HZ   p value MVN
1 Henze-Zirkler 0.8535562 0.1168836 YES

$`2`
           Test        HZ   p value MVN
1 Henze-Zirkler 0.6848881 0.6171471 YES

Uji Homogenitas BoxM

> hom<-BoxM(data = data_diabetes[,1:4], data_diabetes$`Outcome`)
> summary(hom)
       Box's M Test 

Chi-Squared Value = 15.6364 , df = 10  and p-value: 0.111 

Uji T^2 Hotelling

> mod1<-hotelling.test(.~`Outcome`, data = data_diabetes)
> mod1
Test stat:  27.313 
Numerator df:  4 
Denominator df:  55 
P-value:  0.0002414 
> 
> G<-c(rep(1,30),rep(2,30))
> G
 [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2
[39] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
> mod2<-TwoSamplesHT2(data = data_diabetes[,c(-5)],group = G, 
+                     alpha = 0.05, Homogenity = TRUE)
> summary(mod2)
              Two Independent Samples Hotelling T Square Test 

Hotelling T Sqaure Statistic = 27.31287 
 F value = 6.475 , df1 = 4 , df2 = 55 , p-value: 0.000241 

           Descriptive Statistics (The First Group) 

        Glucose   Insulin       BMI       Age
Means 112.33333 134.96667 42.570000 27.666667
Sd     23.72883  75.02987  2.636893  5.755557


           Descriptive Statistics (The Second Group) 

        Glucose   Insulin       BMI       Age
Means 139.96667 192.93333 41.476667 33.600000
Sd     28.67834  76.03853  3.314304  8.830199


           Detection important variable(s)

              Lower      Upper Important Variables?
Glucose  -49.876481 -5.3901857               *TRUE*
Insulin -121.801917  5.8685833                FALSE
BMI       -1.437579  3.6242453                FALSE
Age      -12.231977  0.3653104                FALSE
> 
> with(data_diabetes,
+      HotellingsT2Test(cbind(`Glucose`,`Insulin`,`BMI`,`Age`)~`Outcome`))

    Hotelling's two sample T2-test

data:  cbind(Glucose, Insulin, BMI, Age) by Outcome
T.2 = 6.475, df1 = 4, df2 = 55, p-value = 0.0002414
alternative hypothesis: true location difference is not equal to c(0,0,0,0)

HASIL DAN PEMBAHASAN

Statistika Deskriptif

> summary(data_diabetes[,-5])
    Glucose         Insulin           BMI             Age       
 Min.   : 79.0   Min.   : 36.0   Min.   :37.10   Min.   :21.00  
 1st Qu.:101.5   1st Qu.:108.8   1st Qu.:39.48   1st Qu.:24.00  
 Median :121.0   Median :146.5   Median :41.65   Median :28.50  
 Mean   :126.2   Mean   :163.9   Mean   :42.02   Mean   :30.63  
 3rd Qu.:146.5   3rd Qu.:220.0   3rd Qu.:44.27   3rd Qu.:36.50  
 Max.   :198.0   Max.   :370.0   Max.   :49.70   Max.   :48.00  

Hasil Uji

Uji Normalitas Mardia

H0: Data berasal dari distribusi normal multivariat.

H1: Data tidak berasal dari distribusi normal multivariat.

Statistik Uji:

  • Berdasarkan Mardia Skewness

P-Value Negatif Diabetes = 0.0745

P-Value Positif Diabetes = 0.9017

  • Berdasarkan Mardia Kurtosis

P-Value Negatif Diabetes = 0.9965

P-Value Positif Diabetes = 0.3171

Keputusan:

  • Berdasarkan Mardia Kurtosis

P-Value Negatif Diabetes > \(\alpha=0.05\) maka terima H0

P-Value Positif Diabetes > \(\alpha=0.05\) maka terima H0

  • Berdasarkan Mardia Skewness

P-Value Negatif Diabetes > \(\alpha=0.05\) maka terima H0

P-Value Positif Diabetes > \(\alpha=0.05\) maka terima H0

Kesimpulan:

Data berasal dari distribusi multivariat normal.

Uji Normalitas Henze Zirkler

H0: Data berasal dari distribusi normal multivariat.

H1: Data tidak berasal dari distribusi normal multivariat.

Statistik Uji:

P-Value Negatif Diabetes = 0.1169

P-Value Positif Diabetes = 0.6171

Keputusan:

P-Value Negatif Diabetes > \(\alpha=0.05\) maka terima H0

P-Value Positif Diabetes > \(\alpha=0.05\) maka terima H0

Kesimpulan:

Data berasal dari distribusi normal multivariat.

Uji Homogenitas BoxM

H0: Terdapat homogenitas matriks kovarians antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.

H1: Tidak terdapat homogenitas matriks kovarians antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.

Statistik Uji:

P-Value = 0.111

Keputusan:

P-Value > \(\alpha=0.05\) maka terima H0

Kesimpulan:

Terdapat homogenitas matriks kovarians antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.

Uji T^2 Hotelling

H0: Tidak terdapat perbedaan yang signifikan dalam vektor rata-rata antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.

H1: Terdapat perbedaan yang signifikan dalam vektor rata-rata antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.

Statistik Uji:

P-Value = 0.000241

Keputusan:

P-Value < \(\alpha=0.05\) maka tolak H0

Kesimpulan:

Terdapat perbedaan yang signifikan dalam vektor rata-rata antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.

PENUTUP

Kesimpulan

Berdasarkan hasil Uji T^2 Hotelling yang telah dilakukan, dapat disimpulkan bahwa setidaknya satu dari variabel Glukosa, Insulin, Indeks Massa Tubuh, atau Usia memiliki dampak yang signifikan dalam membedakan antara kelompok indikasi positif dan indikasi negatif terkena penyakit diabetes.

Saran

Saran yang dapat diberikan bagi penelitian selanjutnya yang menggunakan topik serupa adalah sebagai berikut:

  1. Perluas Sampel dan Data:

Sampel penelitian yang cukup besar dan mencakup berbagai kelompok usia, jenis kelamin, dan latar belakang etnis akan membantu dalam menggeneralisasi hasil penelitian ke populasi yang lebih luas.

  1. Analisis Variabel Lain:

Selain variabel yang sudah ditelaah (Glukosa, Insulin, BMI, dan Usia), dapat dipertimbangkan juga faktor-faktor lain yang dapat berperan dalam risiko diabetes, seperti riwayat keluarga, pola makan, tingkat aktivitas fisik, dan faktor-faktor lingkungan.

Daftar Pustaka

Sutrisno, S., & Wulandari, D. (2018). Multivariate analysis of variance (MANOVA) untuk memperkaya hasil penelitian pendidikan. AKSIOMA: Jurnal Matematika Dan Pendidikan Matematika, 9(1), 37-53.

Rencher, A. C. (2002). Methods of Multivariate Analysis. Kanada: John Wiley and Sons, Inc.

Nurhapilah, H., & Darwis, S. (2023, January). Multivariate Statistical Process Control untuk Mendeteksi Kerusakan Bearing. In Bandung Conference Series: Statistics (Vol. 3, No. 1, pp. 90-99).