Kasus Data

Sumber Data: https://www.kaggle.com/datasets/simaanjali/diabetes-classification-dataset

Sebuah penelitian dilakukan untuk memahami faktor-faktor yang berhubungan dengan diabetes. Peneliti ingin melihat pengaruh berbagai faktor demografis dan biokimia pada kondisi diabetes seseorang, yang tercermin dalam variabel “Diagnosis” (0 untuk tidak diabetes, 1 untuk diabetes). Berikut adalah deskripsi singkat dari variabel-variabel yang digunakan dalam penelitian ini:

  1. Diagnosis: Status diabetes (0 = tidak diabetes, 1 = diabetes).

  2. Age: Usia partisipan dalam tahun.

  3. Gender: Jenis kelamin partisipan (M = Pria, F = Wanita).

  4. BMI: Indeks Massa Tubuh (BMI) sebagai indikator lemak tubuh.

  5. Chol: Kadar kolesterol total dalam darah (mg/dL).

  6. TG: Kadar trigliserida dalam darah (mg/dL).

  7. HDL: Kadar kolesterol HDL dalam darah (mg/dL), kolesterol “baik”.

  8. LDL: Kadar kolesterol LDL dalam darah (mg/dL), kolesterol “jahat”.

  9. Cr: Kadar kreatinin dalam darah (mg/dL), sebagai indikator fungsi ginjal.

  10. BUN: Blood Urea Nitrogen (mg/dL), juga sebagai indikator kesehatan ginjal.

    Dalam kasus ini, peneliti ingin menguji terlebih dahulu beberapa variabel, yaitu BMI, HDL, dan LDL.

data <- read.csv("C:/Users/USER/Downloads/Diabetes Classification.csv",header=TRUE,sep=";",dec=".")
head(data)
##   Diagnosis Age Gender BMI Chol   TG  HDL  LDL   Cr  BUN
## 1         0  48      F  26 4.35 0.68 1.91 2.23 54.4 3.23
## 2         1  53      F  29 4.35 1.82 1.41 2.28 57.6 3.58
## 3         0  30      F  21 6.12 0.86 1.76 3.27 55.1 5.78
## 4         0  66      F  19 3.83 0.43 1.75 1.68 51.1 7.60
## 5         1  62      F  20 7.49 3.36 1.61 4.56 48.7 5.57
## 6         1  56      F  26 6.10 2.30 1.60 3.60 38.0 4.00
data <- data[76:125,]

Uji Normalitas

Uji normalitas pada MANOVA bertujuan untuk memastikan bahwa data berdistribusi normal multivariat, yang merupakan salah satu asumsi penting agar hasil uji MANOVA valid dan reliable. Dalam konteks MANOVA, normalitas diuji pada variabel dependen dalam setiap kelompok dari variabel independen.

Hipotesis

H0: Data berdistribusi normal multivariat

H1: Data tidak berdistribusi normal multivariat

Taraf Signifikansi

⍺ = 5% = 0,05

Statistik Uji

library(MVN)
data1 <- as.data.frame(data[4:8])
head(data1)
##    BMI Chol   TG  HDL  LDL
## 76  21 4.66 0.93 1.54 3.04
## 77  23 4.88 0.70 2.50 2.10
## 78  26 5.14 1.25 1.23 3.15
## 79  18 6.40 2.04 1.17 3.70
## 80  32 5.63 1.49 1.85 3.04
## 81  24 4.35 1.80 1.21 2.32
dim(data1)
## [1] 50  5
x1_p <- data1$BMI
x2_p <- data1$HDL
x3_p <- data1$LDL
data2_fix <- data.frame(BMI=x1_p, HDL=x2_p, LDL=x3_p)
data2_fix
##    BMI  HDL  LDL
## 1   21 1.54 3.04
## 2   23 2.50 2.10
## 3   26 1.23 3.15
## 4   18 1.17 3.70
## 5   32 1.85 3.04
## 6   24 1.21 2.32
## 7   28 1.10 2.20
## 8   26 1.49 3.11
## 9   22 1.56 2.69
## 10  31 1.10 1.70
## 11  24 1.21 1.92
## 12  23 1.51 2.89
## 13  23 1.37 2.67
## 14  27 1.43 3.28
## 15  19 1.08 2.22
## 16  30 1.40 0.75
## 17  33 0.94 2.06
## 18  33 1.00 0.90
## 19  22 1.29 1.91
## 20  24 1.63 4.14
## 21  20 1.69 3.62
## 22  26 1.01 2.85
## 23  22 1.33 2.66
## 24  20 1.54 2.88
## 25  23 1.10 3.01
## 26  28 0.94 3.82
## 27  25 1.20 1.61
## 28  26 1.10 2.11
## 29  28 1.57 1.67
## 30  23 0.71 4.18
## 31  20 1.50 2.36
## 32  23 1.21 2.41
## 33  25 0.81 2.95
## 34  27 0.56 2.97
## 35  18 1.06 1.55
## 36  27 0.70 2.60
## 37  35 0.60 2.20
## 38  25 1.00 2.00
## 39  23 1.42 2.14
## 40  27 1.06 3.45
## 41  31 1.42 4.21
## 42  37 1.70 0.95
## 43  27 1.50 3.79
## 44  20 1.20 4.10
## 45  33 0.60 2.70
## 46  24 0.84 3.65
## 47  24 1.87 2.53
## 48  21 1.30 3.00
## 49  28 1.73 2.74
## 50  19 1.54 2.55
test = mvn(data2_fix, mvnTest = "mardia", univariateTest = "SW", multivariatePlot = "qq")

test
## $multivariateNormality
##              Test         Statistic           p value Result
## 1 Mardia Skewness  11.8123645697028 0.297810554817925    YES
## 2 Mardia Kurtosis 0.616804490640339 0.537363689646153    YES
## 3             MVN              <NA>              <NA>    YES
## 
## $univariateNormality
##           Test  Variable Statistic   p value Normality
## 1 Shapiro-Wilk    BMI       0.9599    0.0877    YES   
## 2 Shapiro-Wilk    HDL       0.9689    0.2082    YES   
## 3 Shapiro-Wilk    LDL       0.9794    0.5267    YES   
## 
## $Descriptives
##      n    Mean   Std.Dev Median   Min   Max    25th    75th       Skew
## BMI 50 25.2800 4.5177202  24.50 18.00 37.00 22.2500 27.7500  0.5611006
## HDL 50  1.2684 0.3713976   1.22  0.56  2.50  1.0600  1.5075  0.4303060
## LDL 50  2.6610 0.8391328   2.68  0.75  4.21  2.1175  3.0925 -0.1157177
##       Kurtosis
## BMI -0.2898007
## HDL  0.8867550
## LDL -0.3893733

> test = mvn(data2_fix, mvnTest = "mardia", univariateTest = "SW", multivariatePlot = "qq") 
> test
$multivariateNormality
            Test         Statistic           p value Result
1 Mardia Skewness  11.8123645697028 0.297810554817925    YES
2 Mardia Kurtosis 0.616804490640339 0.537363689646153    YES
3             MVN              <NA>              <NA>    YES

$univariateNormality
            Test  Variable Statistic  p value Normality
1 Shapiro-Wilk    BMI       0.9599    0.0877    YES   
2 Shapiro-Wilk    HDL       0.9689    0.2082    YES   
3 Shapiro-Wilk    LDL       0.9794    0.5267    YES   

$Descriptives
     n    Mean   Std.Dev Median   Min   Max    25th    75th       Skew   
BMI 50 25.2800 4.5177202  24.50 18.00 37.00 22.2500 27.7500  0.5611006 
HDL 50  1.2684 0.3713976   1.22  0.56  2.50  1.0600  1.5075  0.4303060  
LDL 50  2.6610 0.8391328   2.68  0.75  4.21  2.1175  3.0925 -0.1157177 

          Kurtosis
BMI     -0.2898007
HDL      0.8867550
LDL     -0.3893733

P-Value UjiNormalitas Multivariat

Mardia Skewness : 0,297810554817925

Mardia Kurtosis : 0,537363689646153

P-Value Uji Normalitas Univariat

Variabel P-Value
BMI 0.0877
HDL 0.2082
LDL 0.5267

Kriteria Uji

  • Mardia Skewness: Tolak H0 jika p-value < alpha

  • Mardia Kurtosis: Tolak H0 jika p-value < alpha

Keputusan

Mardia P-Value Keputusan
Skewness 0,297810554817925 Terima H0
Kurtosis 0,537363689646153 Terima H0

Kesimpulan

Dengan taraf signifikansi 5%, dapat disimpulkan bahwa datadata hasil diagnosis untuk mengindikasikan pasien dengan diabetes memenuhi asumsi normalitas multivariat dan bivariat.

Uji Homogenitas

Uji homogenitas dalam MANOVA adalah uji yangmemastikan keseragaman matriks kovarians antar variabel dependen di setiap kelompok variabel independen, sering diuji dengan Box’s M test, yang jika signifikan menunjukkan pelanggaran asumsi dan mempengaruhi validitas hasil MANOVA.

Hipotesis

H0 = s1 = s2 = s3 (Matriks kovarians grup adalah sama)

H1 = Setidaknya ada satu matriks kovarians grup (sk) yang berbeda

Taraf Signifikansi

⍺ = 5% = 0,05

Statistik Uji

library(biotools)
## Loading required package: MASS
## ---
## biotools version 4.2
grup <- data$Gender
head(grup)
## [1] "F" "F" "F" "F" "F" "F"
boxM(data = data2_fix, grouping = grup)
## 
##  Box's M-test for Homogeneity of Covariance Matrices
## 
## data:  data2_fix
## Chi-Sq (approx.) = 2.6252, df = 6, p-value = 0.8542
> library(biotools)
> grup <- data$Gender
> head(grup)
[1] "F" "F" "F" "F" "F" "F"
> boxM(data = data2_fix, grouping = grup)

          Box's M-test for Homogeneity of Covariance Matrices

data:  data2_fix
Chi-Sq (approx.) = 2.6252, df = 6, p-value = 0.8542

Kriteria Uji

Tolak H0 jika p-value < alpha

Keputusan

P-value =0,8542 > ⍺ = 0,05 (Maka H0 diterima)

Kesimpulan

Dengan taraf signifikansi 5%, dapat disimpulkan bahwa data hasil diagnosis untuk mengindikasikan pasien dengan diabetes memiliki matriks kovarians grup yang sama.

One Way Manova

One-way MANOVA adalah uji statistik yang mengukur pengaruh satu variabel independen dengan beberapa kategori terhadap dua atau lebih variabel dependen secara simultan, dengan mempertimbangkan korelasi antar variabel dependen tersebut.

Hipotesis

H0 : μ1 = μ2 = μ3 = 0 (Jenis kelamin tidak berpengaruh terhadap terindikasinya seorang pasien dengan diabetes)

H1: Terdapat minimal satu μ tidak sama dengan 0 (Jenis kelamin berpengaruh terhadap terindikasinya seorang pasien dengan diabetes)

Taraf Signifikansi

⍺ = 5% = 0,05

Statistik Uji

owm = manova(cbind(data1$BMI, data1$HDL, data1$LDL)~data$Gender)
summary(owm)
##             Df   Pillai approx F num Df den Df Pr(>F)
## data$Gender  1 0.090285   1.5218      3     46 0.2215
## Residuals   48
> owm = manova(cbind(data1$BMI, data1$HDL, data1$LDL)~data$Gender)
> summary(owm)
            Df   Pillai approx F num Df den Df Pr(>F)
data$Gender  1 0.090285   1.5218      3     46 0.2215
Residuals   48                                       

Kriteria Uji

Tolak H0 jika p-value < alpha

Keputusan

P-value = 0,2215> ⍺ = 0,05 (Maka H0 diterima)

Kesimpulan

Dengan taraf signifikansi 5%, dapat disimpulkan bahwa jenis kelamin tidak berpengaruh terhadap terindikasinya seorang pasien dengan diabetes. Namun, akan tetap dilakukan uji lanjut untuk tujuan pembelajaran dengan Post Hoc Test.

Uji Lanjut

Hipotesis

H0 : Faktor tidak berpengaruh secara signifikan terhadap vektor yang diamati.

H1 : Faktor berpengaruh secara signifikan terhadap vektor yang diamati.

Taraf Signifikansi

⍺ = 5% = 0,05

Statistik Uji

summary.aov(owm)
##  Response 1 :
##             Df Sum Sq Mean Sq F value Pr(>F)
## data$Gender  1   5.14  5.1425  0.2481 0.6207
## Residuals   48 994.94 20.7279               
## 
##  Response 2 :
##             Df Sum Sq Mean Sq F value  Pr(>F)  
## data$Gender  1 0.5542 0.55423  4.2876 0.04379 *
## Residuals   48 6.2046 0.12926                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response 3 :
##             Df Sum Sq Mean Sq F value Pr(>F)
## data$Gender  1  0.296 0.29647   0.416  0.522
## Residuals   48 34.207 0.71264
> summary.aov(owm)
  Response 1 :
            Df Sum Sq Mean Sq F value Pr(>F)
data$Gender  1   5.14  5.1425  0.2481 0.6207
Residuals   48 994.94 20.7279               

  Response 2 :
            Df Sum Sq Mean Sq F value  Pr(>F)  
data$Gender  1 0.5542 0.55423  4.2876 0.04379 *
Residuals   48 6.2046 0.12926    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Response 3 :
            Df Sum Sq Mean Sq F value Pr(>F)
data$Gender  1  0.296 0.29647   0.416  0.522
Residuals   48 34.207 0.71264               

Kriteria Uji

Tolak H0 jika p-value < alpha

Keputusan

Respon P-Value Keputusan
1 (BMI) 0.6207 Terima H0
2 (HDL) 0.04379 Tolak H0
3 (LDL) 0.522 Terima H0

Kesimpulan

Dengan taraf signifikansi 5%, dapat disimpulkan bahwa hanya HDL yang terpengaruh secara signifikan oleh jenis kelamin pasien, sedangkan BMI dan LDL tidak berpengaruh signifikan.

Two Way Manova

Uji Homogenitas

Hipotesis

H0 = s1 = s2 = s3 (Matriks kovarians grup adalah sama)

H1 = Setidaknya ada satu matriks kovarians grup (sk) yang berbeda

Taraf Signifikansi

⍺ = 5% = 0,05

Statistik Uji

# Gender 
boxM(data = data2_fix, grouping = grup)
## 
##  Box's M-test for Homogeneity of Covariance Matrices
## 
## data:  data2_fix
## Chi-Sq (approx.) = 2.6252, df = 6, p-value = 0.8542
# Diagnosis
grup2 <- data$Diagnosis
boxM(data = data2_fix, grouping = grup2)
## 
##  Box's M-test for Homogeneity of Covariance Matrices
## 
## data:  data2_fix
## Chi-Sq (approx.) = 9.0882, df = 6, p-value = 0.1687
> ##Uji Homogenitas  
> # Gender  
> boxM(data = data2_fix, grouping = grup)

        Box's M-test for Homogeneity of Covariance Matrices

data:  data2_fix
Chi-Sq (approx.) = 2.6252, df = 6, p-value = 0.8542

> # Diagnosis
> grup2 <- data$Diagnosis
> boxM(data = data2_fix, grouping = grup2)

        Box's M-test for Homogeneity of Covariance Matrices

data:  data2_fix
Chi-Sq (approx.) = 9.0882, df = 6, p-value = 0.1687

Kriteria Uji

Tolak H0 jika p-value < alpha

Keputusan

Faktor P-Value Keputusan
Gender 0.8542 Terima H0
Diagnosis 0.1687 Terima H0

Kesimpulan

Dengan taraf signifikansi 5%, dapat disimpulkan bahwa data hasil diagnosis untuk mengindikasikan pasien dengan diabetes memiliki matriks kovarians grup yang sama untuk faktor diagnosis dan gender.

Uji Two Way Manova

Hipotesis

H0’ : α1 = α2 = 0 (Faktor gender tidak berpengaruh terhadap tingkat BMI, HDL, dan LDL)

H1 ’ : Setidaknya ada satu αi yang tidak sama dengan 0 (Faktor gender berpengaruh terhadap tingkat BMI, HDL, dan LDL)

H0 ’’ : β1 = β2 = 0 (Faktor hasil diagnosis tidak berpengaruh terhadap tingkat BMI, HDL, dan LDL)

H1 ’’ : Setidaknya ada satu βj yang tidak sama dengan 0, (Faktor hasil diagnosis berpengaruh terhadap tingkat BMI, HDL, dan LDL)

H0 ’’’ : αβij = 0, i = 1,2 j = 1,2 (Interaksi antara gender dan diagnosis tidak berpengaruh terhadap tingkat BMI, HDL, dan LDL)

H1 ’’’ : Setidaknya ada satu αβij yang tidak sama dengan 0 (Interaksi antara gender dan diagnosis berpengaruh terhadap tingkat BMI, HDL, dan LDL)

Taraf Signifikansi

⍺ = 5% = 0,05

Statistik Uji

gender <- as.factor(data$Gender)
diagnosis <- as.factor(data$Diagnosis)
manova <- manova(cbind(x1_p, x2_p, x3_p) ~ gender*diagnosis, data=data)
summary(manova)
##                  Df   Pillai approx F num Df den Df   Pr(>F)   
## gender            1 0.095402   1.5468      3     44 0.215804   
## diagnosis         1 0.285746   5.8676      3     44 0.001844 **
## gender:diagnosis  1 0.013679   0.2034      3     44 0.893484   
## Residuals        46                                            
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> gender <- as.factor(data$Gender) 
> diagnosis <- as.factor(data$Diagnosis) 
> manova <- manova(cbind(x1_p, x2_p, x3_p) ~ gender*diagnosis, data=data)
> summary(manova)
                  Df   Pillai approx F num Df den Df   Pr(>F)   
gender            1 0.095402   1.5468      3     44 0.215804   
diagnosis         1 0.285746   5.8676      3     44 0.001844 **
gender:diagnosis  1 0.013679   0.2034      3     44 0.893484   
Residuals        46                                            
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Keputusan

Faktor P-Value Keputusan
Gender 0.215804 Terima H0
Diagnosis 0.001844 Tolak H0
Gender dan diagnosis 0.893484 Terima H0

Kesimpulan

Dengan taraf signifikansi 5%, dapat disimpulkan bahwa:

  • Gender tidak berpengaruh signifikan terhadap level BMI, HDL, dan LDL

  • Hasil Diagnosis berpengaruh signifikan terhadap setidaknya satu variabel di antara level BMI, HDL, dan LDL

  • Gender dan Hasil diagnosis tidak berpengaruh signifikan terhadap level BMI, HDL, dan LDL

Dilakukan uji lanjut sebagai bahan pembelajaran

Uji Lanjut

Hipotesis

H0 : Faktor tidak berpengaruh secara signifikan terhadap vektor yang diamati

H1 : Faktor berpengaruh secara signifikan terhadap vektor yang diamati

Taraf Signifikansi

⍺ = 5% = 0,05

Statistik Uji

summary.aov(manova)
##  Response x1_p :
##                  Df Sum Sq Mean Sq F value    Pr(>F)    
## gender            1   5.14   5.143  0.3268 0.5703262    
## diagnosis         1 267.12 267.119 16.9756 0.0001561 ***
## gender:diagnosis  1   3.99   3.990  0.2536 0.6169731    
## Residuals        46 723.83  15.735                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response x2_p :
##                  Df Sum Sq Mean Sq F value  Pr(>F)  
## gender            1 0.5542 0.55423  4.3198 0.04328 *
## diagnosis         1 0.2616 0.26159  2.0389 0.16007  
## gender:diagnosis  1 0.0413 0.04130  0.3219 0.57322  
## Residuals        46 5.9018 0.12830                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response x3_p :
##                  Df Sum Sq Mean Sq F value Pr(>F)
## gender            1  0.296 0.29647  0.4162 0.5220
## diagnosis         1  1.413 1.41259  1.9833 0.1658
## gender:diagnosis  1  0.030 0.03007  0.0422 0.8381
## Residuals        46 32.764 0.71226
> summary.aov(manova)
Response x1_p :
                 Df Sum Sq Mean Sq F value    Pr(>F)    
gender            1   5.14   5.143  0.3268 0.5703262    
diagnosis         1 267.12 267.119 16.9756 0.0001561 ***
gender:diagnosis  1   3.99   3.990  0.2536 0.6169731    
Residuals        46 723.83  15.735                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Response x2_p :
                 Df Sum Sq Mean Sq F value  Pr(>F)  
gender            1 0.5542 0.55423  4.3198 0.04328 *
diagnosis         1 0.2616 0.26159  2.0389 0.16007  
gender:diagnosis  1 0.0413 0.04130  0.3219 0.57322  
Residuals        46 5.9018 0.12830                  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Response x3_p :
                 Df Sum Sq Mean Sq F value Pr(>F)
gender            1  0.296 0.29647  0.4162 0.5220
diagnosis         1  1.413 1.41259  1.9833 0.1658
gender:diagnosis  1  0.030 0.03007  0.0422 0.8381
Residuals        46 32.764 0.71226               

Keputusan

  1. Untuk vektor BMI
Faktor P-Value Keputusan
Gender 0,5703262 Terima H0
Diagnosis 0,0001561 Tolak H0
Gender dan Diagnosis 0.6169731 Terima H0
  1. Untuk vektor HDL

    Faktor P-Value Keputusan
    Gender 0,04328 Tolak H0
    Diagnosis 0,16007 Terima H0
    Gender dan Diagnosis 0,57322 Terima H0
  2. Untuk Vektor LDL

    Faktor P-Value Keputusan
    Gender 0,5220 Terima H0
    Diagnosis 0,1658 Terima H0
    Gender dan Diagnosis 0,8381 Terima H0

Kesimpulan

Dengan taraf signifikansi 5%, dapat disimpulkan bahwa:

  • Hanya faktor diagnosis yang berpengaruh secara signifikan terhadap tingkat BMI

  • Hanya faktor gender yang berpengaruh secara signifikan terhadap tingkat HDL

  • Gender dan diagnosis tidak berpengaruh secara signifikan terhadap tingkat BMI, HDL, dan LDL