Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang Kasus

Pembangunan merupakan salah satu upaya yang dilakukan pemerintah untuk menciptakan masyarakat yang makmur dan sejahtera. Salah satu ukuran yang diguankan untuk mengukur keberhasilan pembangunan di suatu wilayah adalah dengan menggunakan nilai Indeks Pembangunan Manusia. Selama ini, tentunya pemerintah pusat dan daerah telah melaksanakan berbagai program untuk meningkatkan nilai IPM di setiap wilayah di Indonesia. Program pembangunan yang dilaksanakan pemerintah selama ini ternyata menimbulakan kesenjangan yang cukup tinggi antar daerah. Hal ini dapat dilihat dari perbandingan nilai IPM tertinggi dengan nilai IPM terendah. Menurut BPS (2016), nilai IPM tertinggi pada tahun 2015 dimiliki oleh Kota Yogyakarta dengan capaian nilai IPM sebesar 84,56. Yogyakrta merupakan salah satu kota yang berada di Provinsi Jawa Tengah. Jawa Tengah, sebagai salah satu provinsi di Indonesia, memiliki berbagai Kabupaten/Kota yang masing-masing memiliki perkembangan dan kondisi yang berbeda. Perkembangan ini tercermin dalam Indeks Pembangunan Manusia (IPM) yang mencakup indikator-indikator seperti pendidikan, kesehatan, dan pendapatan. Dari hasil penentuan kategori indikator IPM suatu daerah diperlukan sebuah fungsi yang dapat digunakan untuk mengklasifikasikan suatu objek ke dalam salah satu dari kategori nilai indikator IPM. Penyusunan fungsi klasifikasi tersebut dilakukan dengan menggunakan salah satu analisis statistika, yaitu dengan menggunakan analisis diskriminan.

1.2 Cuplikan Data yang Digunakan

Sumber data yang digunakan dalam tugas penelitian ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik Provinsi Jawa Tengah. Dimana data sekunder tersebut memuat tentang tingkat Indeks Pembangunan manusia pada tahun 2022 yang diukur melalui beberapa indikitor. Indikator yang diukur dalam data sekunder tersebut yaitu Indikator usia harapan hidup saat lahir,harapan lama sekolah, rata-rata lama sekolah, dan pengeluaran per kapita disesuaikan. Sampel data yang digunakan dalam data sekunder ini berjumlah 35 sampel yang terdiri dari kabupaten/kota yang berada di Provinsi Jawa Tengah. Variabel Independen dari data tersebut terdiri dari variabel Usia Harapan Hidup Saat Lahir, Harapan Lama Sekolah, dan Rata-Rata Lama Sekolah dan Pengeluaran Per Kapita Disesuaikan. Keempat variabel independen tersebut memiliki tipe data kontinu. Sedangkan Variabel dependen yaitu Indeks Pembangunan Manusia (IPM) yang memiliki tipe data Kategori. Dengan 0 sebagai Kabupaten/Kota di Jawa Tengah yang memiliki nilai IPM redah dan 1 sebagai Kabupaten/Kota di Jawa Tengah yang memiliki nilai IPM tinggi.

1.3 Latar Belakang Metode

Terdapat berbagai macam metode statistika untuk menganalisis berbagai macam permasalahan, termasuk dalam menentukan tingkat indeks pembangunan manusia di kabupaten/kota yang berada di Jawa tengah apakah termasuk dalam Kabupaten/kota yang meimiliki Indeks Pembangunan Manusia yang tinggi atau memiliki Indeks Pembangunan Manusia yang rendah . Maka dari itu metode analisis yang tepat digunakan dalam menganalisis data sekunder ini yaitu Analisis Diskriminan. Dimana salah satu metode yang dapat digunakan untuk mengklasifikasikan suatu objek ke dalam kelompok adalah analisis diskriminan. Analisis diskriminan merupakan teknik multivariat yang berkaitan dengan pemisahan objek dalam kelompok yang berbeda dan mengalokasikan objek ke dalam suatu kelompok yang telah ditetapkan sebelumnya. Salah satu alasan mengapa analisis ini cocok digunakan yaitu karena data sekunder yang diteliti terdiri dari variabel dependent (Y) dan variabel independent (X).Dan Untuk menggunakan metode analisis diskriminan terdapat beberapa asumsi yang harus terpenuhi yaitu sejumlah P variabel independen harus berdistribusi normal, matriks varian-covarian variabel penjelas berukuran p xp pada kedua kelompok harus sama (homogen) atau homogenitas ragam antara kelompok data dan idak adanya multikolinieritas antara variabel independent di dalam data.

1.4 Tinjauan Pustaka Metode

1.4.1 Analisis Diskriminan

Analisis diskriminan merupakan salah satu teknik statistik yang termasuk dalam analisis multivariat. Tujuannya adalah untuk mengelompokkan pengamatan ke dalam kelompok berdasarkan sejumlah variabel yang memengaruhi (Johnson & Wichern, 2007). Pengelompokan dilakukan dengan membentuk sebuah fungsi diskriminan. Fungsi diskrimininan merupakan fungsi yang terdiri atas kombinasi liniear berbagai variabel prediktor. Pada nantinya akan terbentuk fungsi diskrimininan sebanyak jumlah kelas atau kategori dikurangi satu yang dapat memisahkan data.. Fungsi diskriminan memiliki bentuk umum yaitu: \[ \hat{D}= b_0 + b_1X_1 + b_2X_2 + ... + b_kX_k \]

Keterangan:

\(\hat{D}\) = Skor diskriminan
\(k\) = Banyaknya variabel prediktor
\(b_0\) = Intersep atau koefisien persamaan fungsi diskriminan
\(b_k\) = Bobot diskriminan untuk peubah prediktor ke-i, dimana i= 1,2,..,p
\(X_k\)= variabel prediktor ke-i, dimana i=1,2,…,n

1.4.2 Asumsi yang Harus Terpenuhi

Sejumlah P variabel independen harus berdistribusi normal
Matriks varian-covarian variabel penjelas berukuran p x p pada kedua kelompok harus sama (homogen) atau homogenitas ragam antara kelompok data
Tidak adanya multikolinieritas antara variabel independent

1.4.3 Tahapan Analisis

Analisis penelitian ini dilakukan melalui tahapan sebagai berikut :

Melakukan pengujian asumsi-asumsi diskriminan yaitu uji kenormalan, uji kesamaan matriks ragam-peragam dan uji nilai vektor rataan.

Uji Kenormalan

Hipotesis yang diuji adalah :

\(H_0\) : Peubah ganda mengikuti sebaran normal
\(H_1\) : Peubah ganda tidak mengikuti sebaran normal

Untuk menguji kenormalan ganda dengan mencari nilai jarak kuadrat untuk setiap pengamatan dengan rumus:

\[d^2_j = (x_j-\bar{x}\_p)^{'}S^{-1}(x_j-\bar{x}_p)\]

Keterangan:

\(x_j\) = pengamatan ke-j
\(\bar{x}_p\) = rata-rata tiap variabel
\(S^{-1}\) = kebalikan (inverse) matriks ragam peragam S
\(d^2_j\) = jarak kuadrat

Nilai jarak tersebut dibandingkan dengan nilai chi-square \(X^2_{(p,\alpha)}\), bila lebih dari 50% nilai \(d^2_j \leq X^2_{(p,\alpha)}\) maka dapat disimpulkan bahwa peubah ganda menyebar normal.

Uji Kesamaan Matriks Ragam-Peragam

Untuk menguji kesamaan matriks ragam-peragam \((\sum)\) antar kelompok hipotesis yang digunakan:

\(H_0 = \sum_1 = \sum_2 = ... = \sum_k\)

\(H_1\) = Sedikitnya ada dua kelompok yang berbeda Uji kesamaan matriks ragam-peragam (varians-kovarians) dengan melakukan pengujian dengan persamaan :

\[x^2_{hitung}= -2(1-C_1)[\frac{1}{2}\sum^k_{i=1}V_i ln|S_i|-\frac{1}{2}ln|S|\sum^k_{i=1}V_i]\]

\[V_i = n_i - 1\]

\[S=\frac{\sum^k_{i=1}V_iS_i}{\sum^k_{i=1} V_i}\]

\[C_1 = [\sum^k_{i=1}\frac{1}{V_i}-\frac{1}{\sum^k_{i=1}V_i}][\frac{2p^2+3p-1}{6(p+1)(k-1)}]\]

Keterangan:

k= Banyaknya kelompok
p = Jumlah peubah bebas
S = Matriks varians-kovarians dalam kelompok gabungan
\(S_i\) = Matriks varians-kovarians kelompok ke i (i= 1,2, ..,k)
\(n_i\) = jumlah responden pada kelompok ke-i (i=1,2,…,k)

Kriteria keputusan bila \(X^2_{hitung}\leq X^2_{\alpha,\frac{1}{2}(k-1)p(p+1)}\), Terima \(H_0\) yang berarti bahwa antar kelompok mempunyai matriks ragam-peragam yang sama.

Uji Vektor Nilai Rataan

Setelah asumsi-asumsi terpenuhi tidak dapat langsung dibentuk fungsi diskriminan, harus uji terlebih dahulu vektor nilai rataannya. Hipotesi yang diuji yaitu:

\(H_0 : \mu_0 = \mu_1 = \mu_2 = ... = \mu_k\)
\(H_1\) : Sedikitnya ada dua kelompok yang berbeda

Untuk mengetahui apakah ada nilai rata-rata dari pengamatan berbeda dengan menggunakan persamaan:

\[F_{hitung}=(\frac{n_1+n_2-p-1}{(n_1+n_2-2)p})t^2(\alpha)\]

\[t^2(\alpha)=\frac{n_1n_2}{n_1+n_2}(\bar{x}_1-\bar{x}_2)^{'}S^{-1}(\bar{x}_1-\bar{x}_2)\]

Keterangan :

\(n_1\) = jumlah pengamatan dari kelompok 1
\(n_2\) = jumlah pengamatan dari kelompok 2 P = jumlah peubah bebas
\(\bar{x}_1\) = matriks rata-rata grup 1
\(\bar{x}_2\) = matriks rata-rata grup 2
\(S^{-1}\) = matriks invers ragam-peragam gabungan

Jika \(F_{hitung} > F_{\alpha;(p,n_1+n_2-p-1)}\) artinya tolak \(H_0\) pada taraf nyata \(\alpha\), maka antara kelompok satu dan dua berasal dari populasi yang berbeda (heterogen).

Membentuk fungsi diskriminan Jika pengujian asumsi-asumsi telah terpenuhi yaitu data menyebar secara normal dan nilai matriks ragam-peragamnya sama serta terdapat perbedaan vektor nilai rataannya dapat dibentuk fungsi diskriminan dengan persamaan:

\[\hat{D}= b_0 + b_1X_1 + b_2X_2 + ... + b_kX_k\]

Validasi fungsi diskriminan

Langkah pertama dengan mengelompokkan terlebih dahulu suatu pengamatan masuk ke dalam kelompok mana menggunakan fungsi diskriminan dengan persamaan:

\[y(x)= a^{'}x=(\bar{x}_1-\bar{x}_2)^{'}S^{-1}x\]

Selanjutnya dibandingkan dengan titik pemisah kelompok

\[\bar{m}_c=\frac{n_1\bar{y}_1 + n_2\bar{y}_2}{n_1+n_2}\]

Terlebih dahulu dicari nilai tengah vektor rataan dari 2 kelompok dengan menggunakan persamaan:

\(\bar{y}_1 = (\bar{x}_1-\bar{x}_2)^{'}S^{-1}\bar{x}_1= a{'}\bar{x}_1\)

dan

\(\bar{y}_2 = (\bar{x}_1-\bar{x}_2)^{'}S^{-1}\bar{x}_2= a{'}\bar{x}_2\)

Alokasi x ke kelompok 1 jika \(y\leq \bar{m}_c\) dan sebaliknya ke kelompok 2 Setelah dikelompokan dibaut tabel kesalahan klasifikasi berikut:

Keterangan:

\(n_{11}\) = jumlah pengamatan dari kelompok 1 yang diklasifikasikan ke kelompok 1
\(n_{12}\) = jumlah pegamatan dari kelompok 1 yang diklasifikasikan ke kelompok 2
\(n_{21}\) = jumlah pengamatan dari kelompok 2 yang diklasifikasikan ke kelompok 1
\(n_{22}\) = jumlah pengamatan dari kelompok 2 yang diklasifikasikan ke kelompok 2

Kemudian diuji keakuratan fungsi diskriminan yang terbentuk menggunakan HitRatio dengan hipotesis pengujiannya:

\(H_0\) : Fungsi diskriminan yang terbentuk tidak akurat
\(H_1\) : Fungsi diskriminan yang terbentuk akurat

Rumus:

\[HitRatio = (n_{benar}: N)\text{x} 100\text{%}\]

Keterangan:

\(n_{benar}\) = Jumlah sampel dengan alokasi prediksi benar
N = Jumlah keseluruhan sampel

Jika nilai \(HitRatio > C_{max}\), maka Tolak \(H_0\) atau fungsi diskriminan dinyatakan akurat.

1.5 Tujuan Analisis

Untuk mengetahui apakah ada perbedaan yang jelas diantara grup pada variabel dependen, jika terdapat perbedaan ingin diketahui variabel independent mana yang membuat perbedaan tersebut.
Melakukan klasifikasi terhadap objek. Apakah objek tersebut masuk pada grup satu atau dua.

2 SOURCE CODE

2.1 Library

> library(MVN)
> library(biotools) 
> library(candisc)
> library(MASS) 
> library(caret)

library MVNdigunakan untuk melakukan analisis multivariat normalitas pada data yang bertujuan untuk memeriksa apakah data multivariat mengikuti distribusi normal.
library biotools digunakan dalam analisis biologi atau bioinformatika. isi dari library ini akan bervariasi tergantung versi yang dimiliki.
library candisc digunakan untuk melakukan analisis diskriminan kanonikal yang digunakan dalam statistik multivariat untuk membedakan grup atau kategori dalam data.
library MASS digunakan dalam analisis data termasuk regresi dan analissis diskriminan.
library caret digunakan untuk pemrosesan data, pemilihan model, dan evaluasi model dalam analisis klasifikasi dan regresi.

2.2 Fungsi dari Masing-Masing Source Code

2.2.1 Input Data

> library(readxl)
> datadiskriminan <- read_excel("D:/Indeks Pembangunan Ekonomi.xlsx")
> View(datadiskriminan)
> datadiskriminan
# A tibble: 35 × 6
   `Kabupaten/Kota`        IPM Usia harapan hidup saat …¹ `Harapan lama sekolah`
   <chr>                 <dbl>                      <dbl>                  <dbl>
 1 Kota Salatiga             1                       77.7                   15.4
 2 Kota Semarang             1                       77.7                   15.5
 3 Kota Surakarta            1                       77.4                   14.9
 4 Kota Magelang             1                       77.0                   14.3
 5 Kabupaten Sukoharjo       1                       77.8                   13.9
 6 Kabupaten Klaten          1                       77.0                   13.4
 7 Kabupaten Karanganyar     1                       77.6                   13.7
 8 Kota Tegal                1                       74.6                   13.1
 9 Kota Pekalongan           1                       74.5                   12.9
10 Kabupaten Kudus           1                       76.8                   13.2
# ℹ 25 more rows
# ℹ abbreviated name: ¹`Usia harapan hidup saat ini`
# ℹ 2 more variables: `Rata-rata lama sekolah` <dbl>,
#   `Pengeluaran per kapita disesuaikan` <dbl>

library readxl adalah salah satu library di R yang digunakan untuk membaca data dari file Excel. Library ini dapat membaca data dari file Excel ke dalam R. Langkah pertama yaitu memasukan data menggunakan function readxl dengan dengan memberikan tambahan keterangan tipe data numeric tiap kolom.

2.2.2 Cek Outlier

> datacek<- datadiskriminan
> hasildata<-mvn(datacek[,3:6], multivariateOutlierMethod = "adj", showNewData = TRUE)

> hasildata
$multivariateNormality
           Test       HZ      p value MVN
1 Henze-Zirkler 1.166896 0.0005703168  NO

$univariateNormality
              Test                           Variable Statistic   p value
1 Anderson-Darling    Usia harapan hidup saat ini        0.3845    0.3756
2 Anderson-Darling        Harapan lama sekolah           1.0838    0.0066
3 Anderson-Darling       Rata-rata lama sekolah          1.4348    0.0009
4 Anderson-Darling Pengeluaran per kapita disesuaikan    1.1275    0.0052
  Normality
1    YES   
2    NO    
3    NO    
4    NO    

$Descriptives
                                    n         Mean      Std.Dev   Median
Usia harapan hidup saat ini        35    75.112286    1.8210115    74.93
Harapan lama sekolah               35    13.016286    0.9199587    12.91
Rata-rata lama sekolah             35     8.141143    1.2688850     7.79
Pengeluaran per kapita disesuaikan 35 11533.600000 1813.5389063 10937.00
                                       Min      Max      25th      75th
Usia harapan hidup saat ini          69.74    77.82    74.050    76.365
Harapan lama sekolah                 11.78    15.54    12.445    13.345
Rata-rata lama sekolah                6.35    10.95     7.295     8.895
Pengeluaran per kapita disesuaikan 8994.00 16351.00 10172.000 12485.000
                                         Skew      Kurtosis
Usia harapan hidup saat ini        -0.6181069  0.4185732420
Harapan lama sekolah                1.1505161  0.9692258777
Rata-rata lama sekolah              0.9650954 -0.0006261298
Pengeluaran per kapita disesuaikan  1.0718135  0.5776115555

$newData
# A tibble: 30 × 4
   `Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
                           <dbl>                  <dbl>                    <dbl>
 1                          76.8                   13.2                     9.06
 2                          76.1                   12.6                     8.08
 3                          75.9                   13.0                     8.05
 4                          75.9                   12.9                     7.79
 5                          75.0                   13.5                     8.32
 6                          75.5                   13.3                     8.1 
 7                          74.5                   13.0                     7.71
 8                          73.9                   13.2                     7.78
 9                          76.0                   12.8                     8.09
10                          76.3                   13.0                     7.79
# ℹ 20 more rows
# ℹ 1 more variable: `Pengeluaran per kapita disesuaikan` <dbl>
> databaru <- hasildata$newData
> View(databaru)
> hasil<- mvn(databaru, mvnTest = 'royston',  alpha = 0.05)
> hasil
$multivariateNormality
     Test        H   p value MVN
1 Royston 6.931409 0.1351608 YES

$univariateNormality
              Test                           Variable Statistic   p value
1 Anderson-Darling    Usia harapan hidup saat ini        0.4610    0.2421
2 Anderson-Darling        Harapan lama sekolah           0.2182    0.8239
3 Anderson-Darling       Rata-rata lama sekolah          0.4516    0.2553
4 Anderson-Darling Pengeluaran per kapita disesuaikan    0.6357    0.0883
  Normality
1    YES   
2    YES   
3    YES   
4    YES   

$Descriptives
                                    n         Mean      Std.Dev    Median
Usia harapan hidup saat ini        30    74.708333    1.6406876    74.660
Harapan lama sekolah               30    12.716667    0.5226348    12.715
Rata-rata lama sekolah             30     7.723667    0.7613938     7.745
Pengeluaran per kapita disesuaikan 30 11038.600000 1227.7719265 10805.500
                                       Min      Max       25th       75th
Usia harapan hidup saat ini          69.74    77.64    73.9175    75.8675
Harapan lama sekolah                 11.78    13.70    12.4325    13.0700
Rata-rata lama sekolah                6.35     9.20     7.2525     8.0875
Pengeluaran per kapita disesuaikan 8994.00 13455.00 10031.7500 11878.2500
                                          Skew  Kurtosis
Usia harapan hidup saat ini        -0.81636830  1.036525
Harapan lama sekolah               -0.06791071 -1.032716
Rata-rata lama sekolah              0.35279765 -0.674822
Pengeluaran per kapita disesuaikan  0.46393462 -0.876777

Langkah selanjutnya yaitu mengetahui ada atau tidaknya outlier pada data sehingga mengecek dengan function MVN dari data pada kolom 3,4,5 dan 6 dan memberi keterangan untuk membuat new data tanpa outlier yang disimpan dengan nama hasil data. Lalu untuk mendapat data tanpa outlier maka mengambil dari hasil data yang merupakan data baru dimana pada syntax diatas diberi nama data baru. Langkah selanjutnya yaitu menguji asumsi multivariat normality menggunakan uji Royston dengan tingkat kepercayaan sebesar 95% dengan function MVN() dimana pada syntax diatas diberi nama hasil.

2.2.3 Uji Asumsi Homogenitas Ragam Peragam

> uji_bart <- function(x){
+   method <- "Bartlett's test of sphericity"
+   data.name <- deparse(substitute(x))
+   x <- subset(x, complete.cases(x))
+   n <- nrow(x)
+   p <- ncol(x)
+   chisq <- (1-n+(2*p+5)/6)*log(det(cor(x)))
+   df <- p*(p-1)/2
+   p.value <- pchisq(chisq, df, lower.tail=FALSE)
+   names(chisq) <- "Khi-squared"
+   names(df) <- "df"
+   return(structure(list(statistic=chisq, parameter=df, p.value=p.value,
+                         method=method, data.name=data.name), class="htest"))}
> library(biotools)
> dataakhir<-datadiskriminan[c(6:35),2:6]
> attach(dataakhir)
> View(dataakhir)
> uji_bart(dataakhir)

    Bartlett's test of sphericity

data:  dataakhir
Khi-squared = 87.373, df = 10, p-value = 1.774e-14

Langkah selanjutnya yaitu membuat function untuk Uji Barlet. Dimana Uji Barlet mengandung nilai chisquare dan p-value yang dimana pada syntax tersebut diberi nama uji_bart.Langkah selanjutnya yaitu mengaktifkan library biotools. Selanjutnya mendefinisikan data baru yang diambil dari datadiskriminan non-outliers yaitu dari baris 6 hingga 35 . Kemudian dilakukan uji-barlet menggunakan function uji_bart dari data akhir.

2.2.4 Pengujian Perbedaan Rata-Rata Variabel Dependen

> library(candisc)
> X<-as.matrix(dataakhir[2:5])
> X.manova<-manova(X~dataakhir$IPM, data=dataakhir)
> X.wilks<-summary(X.manova, test="Wilks")
> X.wilks
              Df   Wilks approx F num Df den Df    Pr(>F)    
dataakhir$IPM  1 0.29946   14.621      4     25 2.776e-06 ***
Residuals     28                                             
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Langkah selanjutnya mengaktifkan library candisc. Lalu mendefinisikan matriks dari kolom 2, 3, 4 dan 5 dimana dalam syntax diatas diberi nama X. Dengan kata lain X merupakan variabel independen. Selanjutnya yaitu melakukan Uji Manova variabel dependent terhadap variabel independent dengan function manova dan disimpan dengan X.manova. Setelah itu, melakukan uji perbedaan rata-rata dengan uji wilks lambda dengan function summary() dan diberi nama X.wilks.

2.2.5 Kontribusi Variabel Prediktor Terhadap Variabel Respon

> cc<-candisc(X.manova)
> cc

Canonical Discriminant Analysis for dataakhir$IPM:

   CanRsq Eigenvalue Difference Percent Cumulative
1 0.70054     2.3394                100        100

Test of H0: The canonical correlations in the 
current row and all that follow are zero

  LR test stat approx F numDF denDF   Pr(> F)    
1      0.29946   14.621     4    25 2.776e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Kontribsui variabel independent terhadap variabel dependent menggunakan function candisc() dan diberi nama cc

2.2.6 Membuat Fungsi Diskriminan

> library(MASS)
> library(caret)
> modellda<-lda(IPM~., data = dataakhir)
> modellda
Call:
lda(IPM ~ ., data = dataakhir)

Prior probabilities of groups:
        0         1 
0.4666667 0.5333333 

Group means:
  `Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
0                      73.61143               12.37500                    7.145
1                      75.66813               13.01562                    8.230
  `Pengeluaran per kapita disesuaikan`
0                             10143.93
1                             11821.44

Coefficients of linear discriminants:
                                               LD1
`Usia harapan hidup saat ini`         0.4621447328
`Harapan lama sekolah`                1.0275569240
`Rata-rata lama sekolah`             -0.0340927843
`Pengeluaran per kapita disesuaikan`  0.0008286707

Mengaktifkan library MASS dan library caret. Lalu membuat fungsi diskriminan menggunakan function lda() yang diberi nama modellda

2.2.7 Membuat tabel klasifikasi dan menguji ketepatan model

> pred_LDA1<- predict(modellda, dataakhir)
> pred_LDA1
$class
 [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Levels: 0 1

$posterior
              0            1
1  0.0001142463 9.998858e-01
2  0.0001022625 9.998977e-01
3  0.0007166430 9.992834e-01
4  0.0035278272 9.964722e-01
5  0.0021879964 9.978120e-01
6  0.0005777456 9.994223e-01
7  0.0016378071 9.983622e-01
8  0.0005313714 9.994686e-01
9  0.0871657668 9.128342e-01
10 0.0738033201 9.261967e-01
11 0.0351794296 9.648206e-01
12 0.0514460528 9.485539e-01
13 0.1223887899 8.776112e-01
14 0.0425694558 9.574305e-01
15 0.7175289710 2.824710e-01
16 0.8342488550 1.657511e-01
17 0.7100728626 2.899271e-01
18 0.7478859733 2.521140e-01
19 0.9692129124 3.078709e-02
20 0.9225222110 7.747779e-02
21 0.9651248196 3.487518e-02
22 0.8579698147 1.420302e-01
23 0.9466987972 5.330120e-02
24 0.9959679977 4.032002e-03
25 0.9952762567 4.723743e-03
26 0.9770688311 2.293117e-02
27 0.9970056711 2.994329e-03
28 0.9970005667 2.999433e-03
29 0.9997140790 2.859210e-04
30 0.9999037360 9.626399e-05

$x
          LD1
1   2.9208064
2   2.9582236
3   2.3006520
4   1.7615769
5   1.9233118
6   2.3734379
7   2.0212830
8   2.4017033
9   0.6491773
10  0.7102669
11  0.9742199
12  0.8401580
13  0.5213053
14  0.9072475
15 -0.4585576
16 -0.6894267
17 -0.4462346
18 -0.5109337
19 -1.3084063
20 -0.9801459
21 -1.2648844
22 -0.7510379
23 -1.1151620
24 -2.0039314
25 -1.9502381
26 -1.4105951
27 -2.1047404
28 -2.1041636
29 -2.8986521
30 -3.2662599
> table(actual=dataakhir$IPM, predicted=pred_LDA1$class)
      predicted
actual  0  1
     0 14  0
     1  2 14

Membuat tabel prediksi dan aktual yang digunakan untuk menguji ketepatan model. Menggunakan function predict() dan disimpan dengan nama pred_LDA1 lalu membuat tabel dengan function table

3 HASIL DAN PEMBAHASAN

3.1 Input Data

> View(datadiskriminan)

Data diambil dari Badan Pusat Statistik Jawa tengah sebanyak 35 Kabupaten/Kota. Variabel independent terdiri dari variabel usia harapan hidup saat lahir,harapan lama sekolah, rata-rata lama sekolah, dan pengeluaran per kapita disesuaikan. Sedangkan variabel dependent yaitu Indeks pembangunan Manusia (IPM) yang memiliki tipe data kategori.

Dimana :

Variabel \(X_1\) = Usia harapan hidup saat lahir
Variabel \(X_2\) = Harapan lama sekolah
Variabel \(X_3\) = Rata-rata lam sekolah
Variabel \(X_4\) = Pengeluaran per kapita disesuaikan
Variabel Y = Indeks Pembangunan Manusia (IPM), teridri dari:

0 = Kabupaten/Kota yang memiliki IPM rendah.
1 = Kabupaten/Kota yang memiliki IPM tinggi.

3.2 Cek Outlier

> hasildata<-mvn(datacek[,3:6], multivariateOutlierMethod = "adj", showNewData = TRUE)

> hasildata
$multivariateNormality
           Test       HZ      p value MVN
1 Henze-Zirkler 1.166896 0.0005703168  NO

$univariateNormality
              Test                           Variable Statistic   p value
1 Anderson-Darling    Usia harapan hidup saat ini        0.3845    0.3756
2 Anderson-Darling        Harapan lama sekolah           1.0838    0.0066
3 Anderson-Darling       Rata-rata lama sekolah          1.4348    0.0009
4 Anderson-Darling Pengeluaran per kapita disesuaikan    1.1275    0.0052
  Normality
1    YES   
2    NO    
3    NO    
4    NO    

$Descriptives
                                    n         Mean      Std.Dev   Median
Usia harapan hidup saat ini        35    75.112286    1.8210115    74.93
Harapan lama sekolah               35    13.016286    0.9199587    12.91
Rata-rata lama sekolah             35     8.141143    1.2688850     7.79
Pengeluaran per kapita disesuaikan 35 11533.600000 1813.5389063 10937.00
                                       Min      Max      25th      75th
Usia harapan hidup saat ini          69.74    77.82    74.050    76.365
Harapan lama sekolah                 11.78    15.54    12.445    13.345
Rata-rata lama sekolah                6.35    10.95     7.295     8.895
Pengeluaran per kapita disesuaikan 8994.00 16351.00 10172.000 12485.000
                                         Skew      Kurtosis
Usia harapan hidup saat ini        -0.6181069  0.4185732420
Harapan lama sekolah                1.1505161  0.9692258777
Rata-rata lama sekolah              0.9650954 -0.0006261298
Pengeluaran per kapita disesuaikan  1.0718135  0.5776115555

$newData
# A tibble: 30 × 4
   `Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
                           <dbl>                  <dbl>                    <dbl>
 1                          76.8                   13.2                     9.06
 2                          76.1                   12.6                     8.08
 3                          75.9                   13.0                     8.05
 4                          75.9                   12.9                     7.79
 5                          75.0                   13.5                     8.32
 6                          75.5                   13.3                     8.1 
 7                          74.5                   13.0                     7.71
 8                          73.9                   13.2                     7.78
 9                          76.0                   12.8                     8.09
10                          76.3                   13.0                     7.79
# ℹ 20 more rows
# ℹ 1 more variable: `Pengeluaran per kapita disesuaikan` <dbl>

Plot diatas yaitu Q-Q Plot analisis multivariat untuk mendeteksi adanya outlier dari data dengan bantuan function MVN sehingga harus memanggil packages MVN dengan data yang digunakan adalah kolom ke 3 hingga kolom ke 6. Berdasarkan gambar diatas, dapat diketahui bahwa pada data yang digunakan masih terdapat data outlier dengan total outlier sebanyak 5 data yaitu data ke 1,2,3,4 dan 5. Yang kemudian dilakukan penanganan dengan cara membuang baris yang mengandung outlier. Sehingga akan disimpan menjadi data baru.

3.3 Uji Asumsi Multivariat Normality

> hasil$multivariateNormality
     Test        H   p value MVN
1 Royston 6.931409 0.1351608 YES

Dari data yang telah dibuang outliernya di uji dengan menggunakan Uji Royston dengan tingkat kepercayaan 95%.

Hipotesis:

\(H_0\) : Variabel prediktor berdistribusi normal multivariat.
\(H_1\) : Variabel prediktor tidak berdistribusi normal multivariat.

Keputusan :

p-value (0,1351608) > \(\alpha\) (0,05), Maka Terima H0

Kesimpulan :

Berdasarkan hasil keputusan diatas, dengan tingkat kepercayaan 95% maka dapat disimpulkan bahwa data telah berdistribusi normal multivariat

3.4 Uji Asumsi Homogenitas Matriks Ragam Peragam

> uji_bart(dataakhir)

    Bartlett's test of sphericity

data:  dataakhir
Khi-squared = 87.373, df = 10, p-value = 1.774e-14

Dari data baru yang diuji dengan menggunakan Uji Asumsi Homogenitas Matriks Ragam Peragam dengan tingkat kepercayaan 95%, maka diperoleh sebagai berikut

Hipotesis:

\(H_0\) : Memiliki matriks ragam-peragam yang sama.
\(H_1\) : Tidak memiliki matriks ragam peragam yang sama.

Keputusan :

p-value (1,774e-14) < \(\alpha\) (0,05), Maka Terima H0

Kesimpulan :

Berdasarkan hasil keputusan diatas, dengan tingkat kepercayaan 95% maka dapat disimpulkan bahwa data memiliki matriks ragam peragam yang sama.

3.5 Uji Vektor Nilai Rata-Rata Kedua Kelompok ( Wilks Lambda)

> X.wilks
              Df   Wilks approx F num Df den Df    Pr(>F)    
dataakhir$IPM  1 0.29946   14.621      4     25 2.776e-06 ***
Residuals     28                                             
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dari data baru yang diuji dengan menggunakan Uji Vektor Nilai Rata-Rata Kedua Kelompok dengan tingkat kepercayaan 95%, maka diperoleh sebagai berikut

Hipotesis:

\(H_0\) : Tidak terdapat perbedaan rata-rata indeks pembangunanan manusia kategori tingi dan rendah.
\(H_1\) : Terdapat perbedaan rata-rata indeks pembangunan manusia kategori tinggi dan rendah.

Keputusan :

p-value (2,776e-06) < \(\alpha\) (0,05), Maka Tolak H0

Kesimpulan :

Berdasarkan hasil keputusan diatas, dengan tingkat kepercayaan 95% maka dapat disimpulkan bahwa terdapat perbedaan rata-rata indeks pembangunan manusia kategori tinggi dan kategori rendah.

3.6 Pengujian Kontribusi Variabel Prediktor Terhadap Respon

> cc

Canonical Discriminant Analysis for dataakhir$IPM:

   CanRsq Eigenvalue Difference Percent Cumulative
1 0.70054     2.3394                100        100

Test of H0: The canonical correlations in the 
current row and all that follow are zero

  LR test stat approx F numDF denDF   Pr(> F)    
1      0.29946   14.621     4    25 2.776e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hasil dari pengujian yang didapat menunjukan bahwa nilai Canonical Correlation sebesar 0,70054, artinya variabel usia harapan hidup saat lahir, harapan lama sekolah, rata-rata lama sekolah dan pengeluaran per kapita disesuaikan dapat mempengaruhi Indeks Pembangunan Manusia (Kategori IPM tinggi atau rendah) sebesar 70,054% sedangkan 29,946% lainnya dipengaruhi oleh variabel lain diluar penelitian.

3.7 Fungsi Diskriminan

> modellda<-lda(IPM~., data = dataakhir)
> modellda
Call:
lda(IPM ~ ., data = dataakhir)

Prior probabilities of groups:
        0         1 
0.4666667 0.5333333 

Group means:
  `Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
0                      73.61143               12.37500                    7.145
1                      75.66813               13.01562                    8.230
  `Pengeluaran per kapita disesuaikan`
0                             10143.93
1                             11821.44

Coefficients of linear discriminants:
                                               LD1
`Usia harapan hidup saat ini`         0.4621447328
`Harapan lama sekolah`                1.0275569240
`Rata-rata lama sekolah`             -0.0340927843
`Pengeluaran per kapita disesuaikan`  0.0008286707

Dalam menentukan fungsi diskriminan, dilakukan dengan bantuan function lda dari output Coefficients of linear discriminants tersebut didapatkan semua variabel membentuk fungsi diskriminan yaitu \(X_1\), \(X_2\), \(X_3\) dan \(X_4\). Sehingga model fungsi diskriminan yang terbentuk yaitu: \[ \hat{D} = 0,46214X_1 + 1,02755X_2 - 0,03409X_3 + 0,00082X_4 \] Berdasarkan model yang dihasilkan dapat diketahui bahwa variabel \(X_1\), \(X_2\) dan \(X_4\) bertanda postif sedangkan variabel \(X_3\) bertanda negatif. Dapat disimpulkan bahwa variabel usia harapan hidup saat lahir, harapan lama sekolah dan pengeluaran per kapita disesuaikan berpengaruh secara positif terhadap indeks pembangunan manusia sedangkan rata-rata lama sekolah tidak berpengaruh secara positif terhadap indeks pembangunan manusia.

3.8 Membuat Tabel Klasifikasi dan Menguji Ketepatan Model

> table(actual=dataakhir$IPM, predicted=pred_LDA1$class)
      predicted
actual  0  1
     0 14  0
     1  2 14

Dapat dikethaui bahwa indeks pembangunan manusia yang rendah tetap berada pada kategori rendah sebanyak 14 Kabupaten/Kota sedangkan pada indeks pembangunan manusia kategori tinggi dari data awal 16, berada tetap di kategori tinggi sebanyak 14 dan 2 lain berada pada kategori rendah.

\[ HitRatio = \frac {14+14} {14+2+0+14} = 0,933333 \]

Sehingga dapat disimpulkan bahwa tingkat akurasi yang diklasifikasin benar oleh model adalah sebesar 93,33%

4 PENUTUP

4.1 KESIMPULAN

Berdasarkan hasil analisis yang telah dilakukan, maka dapat diambil kesimpulan bahwa rata-rata indikator Indeks Pembangunan Manusia (IPM) dari Kabupaten/Kota yang memiliki IPM tingi lebih besar daripada Kabupaten/Kota yang meiliki IPM rendah. Dari hasil pengujian asumsi kenormalan, asumsi kesamaan matriks ragam peragam dan nilai vektor rataannya terpenuhi, sehingga dapat diperoleh fungsi diskriminan sebagai berikut :

\[ \hat{D} = 0,46214X_1 + 1,02755X_2 - 0,03409X_3 + 0,00082X_4 \] Berdasarkan fungsi diskriminan tersebut dapat disimpulkan bahwa variabel usia harapan hidup saat lahir, harapan lama sekolah dan pengeluaran per kapita disesuaikan berpengaruh secara positif terhadap indeks pembangunan manusia sedangkan rata-rata lama sekolah tidak berpengaruh secara positif terhadap indeks pembangunan manusia. Hasil validasi fungsi diskriminan yang terbentuk menunjukkan bahwa fungsi tersebut akurat dan stabil. Ketepatan fungsi diskriminan adalah 93,33% atau terdapat 0 kesalahan dalam mengklasifikasikan kelompok IPM rendah dan 2 kesalahan dalam mengklasifikasi kelompok IPM tinggi dari 35 Kabupaten/Kota yang berada di Provinsi Jawa Tengah .

4.2 Saran

Data menunjukkan bahwa rata-rata indikator Indeks Pembangunan Manusia (IPM) dari Kabupaten/Kota yang memiliki IPM tingi lebih besar daripada Kabupaten/Kota yang meiliki IPM rendah . Untuk mengatasi kesenjangan tersebut, perlu dilakukan pemerataan aspek pembangunan dari segi pendidikan, sosial maupun ekonomi. Salah satu kebijakannya, antara lain kebijakan mengenai pentingnya pendidikan bagi masyarakat untuk memperbaiki kulaitas Indeks Pembangunan Manusia menjadi lebih baik lagi.Tentunya selain peran penting dari pemerintah hal tersebut tidak akan terlaksana jika tidak adanya kesadaran diri dari masing-masing individu untuk memperbaiki kualitas dirinya masing-masing.

5 DAFTAR PUSTAKA

BPS. 2022. Indeks Pembangunan Manusia (Metode Baru). Jawa Tengah: Badan Pusat Statistik

Johnson R.A dan D.W. Wichern. 2007. Applied Multivariate Statistika Analysis .Ed ke-6. New Jersey: Prentice Hall Inc.

Supranto J.2004. Analisis Multivariat Arti dan Interpretasi . Jakarta: Rineka Cipta.