Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")1 PENDAHULUAN
1.1 Latar Belakang Kasus
Pembangunan merupakan salah satu upaya yang dilakukan pemerintah untuk menciptakan masyarakat yang makmur dan sejahtera. Salah satu ukuran yang diguankan untuk mengukur keberhasilan pembangunan di suatu wilayah adalah dengan menggunakan nilai Indeks Pembangunan Manusia. Selama ini, tentunya pemerintah pusat dan daerah telah melaksanakan berbagai program untuk meningkatkan nilai IPM di setiap wilayah di Indonesia. Program pembangunan yang dilaksanakan pemerintah selama ini ternyata menimbulakan kesenjangan yang cukup tinggi antar daerah. Hal ini dapat dilihat dari perbandingan nilai IPM tertinggi dengan nilai IPM terendah. Menurut BPS (2016), nilai IPM tertinggi pada tahun 2015 dimiliki oleh Kota Yogyakarta dengan capaian nilai IPM sebesar 84,56. Yogyakrta merupakan salah satu kota yang berada di Provinsi Jawa Tengah. Jawa Tengah, sebagai salah satu provinsi di Indonesia, memiliki berbagai Kabupaten/Kota yang masing-masing memiliki perkembangan dan kondisi yang berbeda. Perkembangan ini tercermin dalam Indeks Pembangunan Manusia (IPM) yang mencakup indikator-indikator seperti pendidikan, kesehatan, dan pendapatan. Dari hasil penentuan kategori indikator IPM suatu daerah diperlukan sebuah fungsi yang dapat digunakan untuk mengklasifikasikan suatu objek ke dalam salah satu dari kategori nilai indikator IPM. Penyusunan fungsi klasifikasi tersebut dilakukan dengan menggunakan salah satu analisis statistika, yaitu dengan menggunakan analisis diskriminan.
1.2 Cuplikan Data yang Digunakan
Sumber data yang digunakan dalam tugas penelitian ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik Provinsi Jawa Tengah. Dimana data sekunder tersebut memuat tentang tingkat Indeks Pembangunan manusia pada tahun 2022 yang diukur melalui beberapa indikitor. Indikator yang diukur dalam data sekunder tersebut yaitu Indikator usia harapan hidup saat lahir,harapan lama sekolah, rata-rata lama sekolah, dan pengeluaran per kapita disesuaikan. Sampel data yang digunakan dalam data sekunder ini berjumlah 35 sampel yang terdiri dari kabupaten/kota yang berada di Provinsi Jawa Tengah. Variabel Independen dari data tersebut terdiri dari variabel Usia Harapan Hidup Saat Lahir, Harapan Lama Sekolah, dan Rata-Rata Lama Sekolah dan Pengeluaran Per Kapita Disesuaikan. Keempat variabel independen tersebut memiliki tipe data kontinu. Sedangkan Variabel dependen yaitu Indeks Pembangunan Manusia (IPM) yang memiliki tipe data Kategori. Dengan 0 sebagai Kabupaten/Kota di Jawa Tengah yang memiliki nilai IPM redah dan 1 sebagai Kabupaten/Kota di Jawa Tengah yang memiliki nilai IPM tinggi.
1.3 Latar Belakang Metode
Terdapat berbagai macam metode statistika untuk menganalisis berbagai macam permasalahan, termasuk dalam menentukan tingkat indeks pembangunan manusia di kabupaten/kota yang berada di Jawa tengah apakah termasuk dalam Kabupaten/kota yang meimiliki Indeks Pembangunan Manusia yang tinggi atau memiliki Indeks Pembangunan Manusia yang rendah . Maka dari itu metode analisis yang tepat digunakan dalam menganalisis data sekunder ini yaitu Analisis Diskriminan. Dimana salah satu metode yang dapat digunakan untuk mengklasifikasikan suatu objek ke dalam kelompok adalah analisis diskriminan. Analisis diskriminan merupakan teknik multivariat yang berkaitan dengan pemisahan objek dalam kelompok yang berbeda dan mengalokasikan objek ke dalam suatu kelompok yang telah ditetapkan sebelumnya. Salah satu alasan mengapa analisis ini cocok digunakan yaitu karena data sekunder yang diteliti terdiri dari variabel dependent (Y) dan variabel independent (X).Dan Untuk menggunakan metode analisis diskriminan terdapat beberapa asumsi yang harus terpenuhi yaitu sejumlah P variabel independen harus berdistribusi normal, matriks varian-covarian variabel penjelas berukuran p xp pada kedua kelompok harus sama (homogen) atau homogenitas ragam antara kelompok data dan idak adanya multikolinieritas antara variabel independent di dalam data.
1.4 Tinjauan Pustaka Metode
1.4.1 Analisis Diskriminan
Analisis diskriminan merupakan salah satu teknik statistik yang termasuk dalam analisis multivariat. Tujuannya adalah untuk mengelompokkan pengamatan ke dalam kelompok berdasarkan sejumlah variabel yang memengaruhi (Johnson & Wichern, 2007). Pengelompokan dilakukan dengan membentuk sebuah fungsi diskriminan. Fungsi diskrimininan merupakan fungsi yang terdiri atas kombinasi liniear berbagai variabel prediktor. Pada nantinya akan terbentuk fungsi diskrimininan sebanyak jumlah kelas atau kategori dikurangi satu yang dapat memisahkan data.. Fungsi diskriminan memiliki bentuk umum yaitu: \[ \hat{D}= b_0 + b_1X_1 + b_2X_2 + ... + b_kX_k \]
Keterangan:
\(\hat{D}\) = Skor diskriminan
\(k\) = Banyaknya variabel prediktor
\(b_0\) = Intersep atau koefisien persamaan fungsi diskriminan
\(b_k\) = Bobot diskriminan untuk peubah prediktor ke-i, dimana i= 1,2,..,p
\(X_k\)= variabel prediktor ke-i, dimana i=1,2,…,n
1.4.2 Asumsi yang Harus Terpenuhi
- Sejumlah P variabel independen harus berdistribusi normal
- Matriks varian-covarian variabel penjelas berukuran p x p pada kedua kelompok harus sama (homogen) atau homogenitas ragam antara kelompok data
- Tidak adanya multikolinieritas antara variabel independent
1.4.3 Tahapan Analisis
Analisis penelitian ini dilakukan melalui tahapan sebagai berikut :
- Melakukan pengujian asumsi-asumsi diskriminan yaitu uji kenormalan, uji kesamaan matriks ragam-peragam dan uji nilai vektor rataan.
Uji Kenormalan
Hipotesis yang diuji adalah :
\(H_0\) : Peubah ganda mengikuti sebaran normal
\(H_1\) : Peubah ganda tidak mengikuti sebaran normal
Untuk menguji kenormalan ganda dengan mencari nilai jarak kuadrat untuk setiap pengamatan dengan rumus:
\[d^2_j = (x_j-\bar{x}\_p)^{'}S^{-1}(x_j-\bar{x}_p)\]
Keterangan:
\(x_j\) = pengamatan ke-j
\(\bar{x}_p\) = rata-rata tiap variabel
\(S^{-1}\) = kebalikan (inverse) matriks ragam peragam S
\(d^2_j\) = jarak kuadrat
Nilai jarak tersebut dibandingkan dengan nilai chi-square \(X^2_{(p,\alpha)}\), bila lebih dari 50% nilai \(d^2_j \leq X^2_{(p,\alpha)}\) maka dapat disimpulkan bahwa peubah ganda menyebar normal.
Uji Kesamaan Matriks Ragam-Peragam
Untuk menguji kesamaan matriks ragam-peragam \((\sum)\) antar kelompok hipotesis yang digunakan:
\(H_0 = \sum_1 = \sum_2 = ... = \sum_k\)
\(H_1\) = Sedikitnya ada dua kelompok yang berbeda Uji kesamaan matriks ragam-peragam (varians-kovarians) dengan melakukan pengujian dengan persamaan :
\[x^2_{hitung}= -2(1-C_1)[\frac{1}{2}\sum^k_{i=1}V_i ln|S_i|-\frac{1}{2}ln|S|\sum^k_{i=1}V_i]\]
\[V_i = n_i - 1\]
\[S=\frac{\sum^k_{i=1}V_iS_i}{\sum^k_{i=1} V_i}\]
\[C_1 = [\sum^k_{i=1}\frac{1}{V_i}-\frac{1}{\sum^k_{i=1}V_i}][\frac{2p^2+3p-1}{6(p+1)(k-1)}]\]
Keterangan:
k= Banyaknya kelompok
p = Jumlah peubah bebas
S = Matriks varians-kovarians dalam kelompok gabungan
\(S_i\) = Matriks varians-kovarians kelompok ke i (i= 1,2, ..,k)
\(n_i\) = jumlah responden pada kelompok ke-i (i=1,2,…,k)
Kriteria keputusan bila \(X^2_{hitung}\leq X^2_{\alpha,\frac{1}{2}(k-1)p(p+1)}\), Terima \(H_0\) yang berarti bahwa antar kelompok mempunyai matriks ragam-peragam yang sama.
Uji Vektor Nilai Rataan
Setelah asumsi-asumsi terpenuhi tidak dapat langsung dibentuk fungsi diskriminan, harus uji terlebih dahulu vektor nilai rataannya. Hipotesi yang diuji yaitu:
\(H_0 : \mu_0 = \mu_1 = \mu_2 = ... = \mu_k\)
\(H_1\) : Sedikitnya ada dua kelompok yang berbeda
Untuk mengetahui apakah ada nilai rata-rata dari pengamatan berbeda dengan menggunakan persamaan:
\[F_{hitung}=(\frac{n_1+n_2-p-1}{(n_1+n_2-2)p})t^2(\alpha)\]
\[t^2(\alpha)=\frac{n_1n_2}{n_1+n_2}(\bar{x}_1-\bar{x}_2)^{'}S^{-1}(\bar{x}_1-\bar{x}_2)\]
Keterangan :
\(n_1\) = jumlah pengamatan dari kelompok 1
\(n_2\) = jumlah pengamatan dari kelompok 2 P = jumlah peubah bebas
\(\bar{x}_1\) = matriks rata-rata grup 1
\(\bar{x}_2\) = matriks rata-rata grup 2
\(S^{-1}\) = matriks invers ragam-peragam gabungan
Jika \(F_{hitung} > F_{\alpha;(p,n_1+n_2-p-1)}\) artinya tolak \(H_0\) pada taraf nyata \(\alpha\), maka antara kelompok satu dan dua berasal dari populasi yang berbeda (heterogen).
- Membentuk fungsi diskriminan Jika pengujian asumsi-asumsi telah terpenuhi yaitu data menyebar secara normal dan nilai matriks ragam-peragamnya sama serta terdapat perbedaan vektor nilai rataannya dapat dibentuk fungsi diskriminan dengan persamaan:
\[\hat{D}= b_0 + b_1X_1 + b_2X_2 + ... + b_kX_k\]
- Validasi fungsi diskriminan
Langkah pertama dengan mengelompokkan terlebih dahulu suatu pengamatan masuk ke dalam kelompok mana menggunakan fungsi diskriminan dengan persamaan:
\[y(x)= a^{'}x=(\bar{x}_1-\bar{x}_2)^{'}S^{-1}x\]
Selanjutnya dibandingkan dengan titik pemisah kelompok
\[\bar{m}_c=\frac{n_1\bar{y}_1 + n_2\bar{y}_2}{n_1+n_2}\]
Terlebih dahulu dicari nilai tengah vektor rataan dari 2 kelompok dengan menggunakan persamaan:
\(\bar{y}_1 = (\bar{x}_1-\bar{x}_2)^{'}S^{-1}\bar{x}_1= a{'}\bar{x}_1\)
dan
\(\bar{y}_2 = (\bar{x}_1-\bar{x}_2)^{'}S^{-1}\bar{x}_2= a{'}\bar{x}_2\)
Alokasi x ke kelompok 1 jika \(y\leq \bar{m}_c\) dan sebaliknya ke kelompok 2 Setelah dikelompokan dibaut tabel kesalahan klasifikasi berikut:
Keterangan:
\(n_{11}\) = jumlah pengamatan dari kelompok 1 yang diklasifikasikan ke kelompok 1
\(n_{12}\) = jumlah pegamatan dari kelompok 1 yang diklasifikasikan ke kelompok 2
\(n_{21}\) = jumlah pengamatan dari kelompok 2 yang diklasifikasikan ke kelompok 1
\(n_{22}\) = jumlah pengamatan dari kelompok 2 yang diklasifikasikan ke kelompok 2
Kemudian diuji keakuratan fungsi diskriminan yang terbentuk menggunakan HitRatio dengan hipotesis pengujiannya:
\(H_0\) : Fungsi diskriminan yang terbentuk tidak akurat
\(H_1\) : Fungsi diskriminan yang terbentuk akurat
Rumus:
\[HitRatio = (n_{benar}: N)\text{x} 100\text{%}\]
Keterangan:
\(n_{benar}\) = Jumlah sampel dengan alokasi prediksi benar
N = Jumlah keseluruhan sampel
Jika nilai \(HitRatio > C_{max}\), maka Tolak \(H_0\) atau fungsi diskriminan dinyatakan akurat.
1.5 Tujuan Analisis
- Untuk mengetahui apakah ada perbedaan yang jelas diantara grup pada variabel dependen, jika terdapat perbedaan ingin diketahui variabel independent mana yang membuat perbedaan tersebut.
- Melakukan klasifikasi terhadap objek. Apakah objek tersebut masuk pada grup satu atau dua.
2 SOURCE CODE
2.1 Library
> library(MVN)
> library(biotools)
> library(candisc)
> library(MASS)
> library(caret)- library MVNdigunakan untuk melakukan analisis multivariat normalitas pada data yang bertujuan untuk memeriksa apakah data multivariat mengikuti distribusi normal.
- library biotools digunakan dalam analisis biologi atau bioinformatika. isi dari library ini akan bervariasi tergantung versi yang dimiliki.
- library candisc digunakan untuk melakukan analisis diskriminan kanonikal yang digunakan dalam statistik multivariat untuk membedakan grup atau kategori dalam data.
- library MASS digunakan dalam analisis data termasuk regresi dan analissis diskriminan.
- library caret digunakan untuk pemrosesan data, pemilihan model, dan evaluasi model dalam analisis klasifikasi dan regresi.
2.2 Fungsi dari Masing-Masing Source Code
2.2.1 Input Data
> library(readxl)
> datadiskriminan <- read_excel("D:/Indeks Pembangunan Ekonomi.xlsx")
> View(datadiskriminan)
> datadiskriminan
# A tibble: 35 × 6
`Kabupaten/Kota` IPM Usia harapan hidup saat …¹ `Harapan lama sekolah`
<chr> <dbl> <dbl> <dbl>
1 Kota Salatiga 1 77.7 15.4
2 Kota Semarang 1 77.7 15.5
3 Kota Surakarta 1 77.4 14.9
4 Kota Magelang 1 77.0 14.3
5 Kabupaten Sukoharjo 1 77.8 13.9
6 Kabupaten Klaten 1 77.0 13.4
7 Kabupaten Karanganyar 1 77.6 13.7
8 Kota Tegal 1 74.6 13.1
9 Kota Pekalongan 1 74.5 12.9
10 Kabupaten Kudus 1 76.8 13.2
# ℹ 25 more rows
# ℹ abbreviated name: ¹`Usia harapan hidup saat ini`
# ℹ 2 more variables: `Rata-rata lama sekolah` <dbl>,
# `Pengeluaran per kapita disesuaikan` <dbl>library readxl adalah salah satu library di R yang digunakan untuk membaca data dari file Excel. Library ini dapat membaca data dari file Excel ke dalam R. Langkah pertama yaitu memasukan data menggunakan function readxl dengan dengan memberikan tambahan keterangan tipe data numeric tiap kolom.
2.2.2 Cek Outlier
> datacek<- datadiskriminan
> hasildata<-mvn(datacek[,3:6], multivariateOutlierMethod = "adj", showNewData = TRUE)> hasildata
$multivariateNormality
Test HZ p value MVN
1 Henze-Zirkler 1.166896 0.0005703168 NO
$univariateNormality
Test Variable Statistic p value
1 Anderson-Darling Usia harapan hidup saat ini 0.3845 0.3756
2 Anderson-Darling Harapan lama sekolah 1.0838 0.0066
3 Anderson-Darling Rata-rata lama sekolah 1.4348 0.0009
4 Anderson-Darling Pengeluaran per kapita disesuaikan 1.1275 0.0052
Normality
1 YES
2 NO
3 NO
4 NO
$Descriptives
n Mean Std.Dev Median
Usia harapan hidup saat ini 35 75.112286 1.8210115 74.93
Harapan lama sekolah 35 13.016286 0.9199587 12.91
Rata-rata lama sekolah 35 8.141143 1.2688850 7.79
Pengeluaran per kapita disesuaikan 35 11533.600000 1813.5389063 10937.00
Min Max 25th 75th
Usia harapan hidup saat ini 69.74 77.82 74.050 76.365
Harapan lama sekolah 11.78 15.54 12.445 13.345
Rata-rata lama sekolah 6.35 10.95 7.295 8.895
Pengeluaran per kapita disesuaikan 8994.00 16351.00 10172.000 12485.000
Skew Kurtosis
Usia harapan hidup saat ini -0.6181069 0.4185732420
Harapan lama sekolah 1.1505161 0.9692258777
Rata-rata lama sekolah 0.9650954 -0.0006261298
Pengeluaran per kapita disesuaikan 1.0718135 0.5776115555
$newData
# A tibble: 30 × 4
`Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
<dbl> <dbl> <dbl>
1 76.8 13.2 9.06
2 76.1 12.6 8.08
3 75.9 13.0 8.05
4 75.9 12.9 7.79
5 75.0 13.5 8.32
6 75.5 13.3 8.1
7 74.5 13.0 7.71
8 73.9 13.2 7.78
9 76.0 12.8 8.09
10 76.3 13.0 7.79
# ℹ 20 more rows
# ℹ 1 more variable: `Pengeluaran per kapita disesuaikan` <dbl>
> databaru <- hasildata$newData
> View(databaru)
> hasil<- mvn(databaru, mvnTest = 'royston', alpha = 0.05)
> hasil
$multivariateNormality
Test H p value MVN
1 Royston 6.931409 0.1351608 YES
$univariateNormality
Test Variable Statistic p value
1 Anderson-Darling Usia harapan hidup saat ini 0.4610 0.2421
2 Anderson-Darling Harapan lama sekolah 0.2182 0.8239
3 Anderson-Darling Rata-rata lama sekolah 0.4516 0.2553
4 Anderson-Darling Pengeluaran per kapita disesuaikan 0.6357 0.0883
Normality
1 YES
2 YES
3 YES
4 YES
$Descriptives
n Mean Std.Dev Median
Usia harapan hidup saat ini 30 74.708333 1.6406876 74.660
Harapan lama sekolah 30 12.716667 0.5226348 12.715
Rata-rata lama sekolah 30 7.723667 0.7613938 7.745
Pengeluaran per kapita disesuaikan 30 11038.600000 1227.7719265 10805.500
Min Max 25th 75th
Usia harapan hidup saat ini 69.74 77.64 73.9175 75.8675
Harapan lama sekolah 11.78 13.70 12.4325 13.0700
Rata-rata lama sekolah 6.35 9.20 7.2525 8.0875
Pengeluaran per kapita disesuaikan 8994.00 13455.00 10031.7500 11878.2500
Skew Kurtosis
Usia harapan hidup saat ini -0.81636830 1.036525
Harapan lama sekolah -0.06791071 -1.032716
Rata-rata lama sekolah 0.35279765 -0.674822
Pengeluaran per kapita disesuaikan 0.46393462 -0.876777Langkah selanjutnya yaitu mengetahui ada atau tidaknya outlier pada data sehingga mengecek dengan function MVN dari data pada kolom 3,4,5 dan 6 dan memberi keterangan untuk membuat new data tanpa outlier yang disimpan dengan nama hasil data. Lalu untuk mendapat data tanpa outlier maka mengambil dari hasil data yang merupakan data baru dimana pada syntax diatas diberi nama data baru. Langkah selanjutnya yaitu menguji asumsi multivariat normality menggunakan uji Royston dengan tingkat kepercayaan sebesar 95% dengan function MVN() dimana pada syntax diatas diberi nama hasil.
2.2.3 Uji Asumsi Homogenitas Ragam Peragam
> uji_bart <- function(x){
+ method <- "Bartlett's test of sphericity"
+ data.name <- deparse(substitute(x))
+ x <- subset(x, complete.cases(x))
+ n <- nrow(x)
+ p <- ncol(x)
+ chisq <- (1-n+(2*p+5)/6)*log(det(cor(x)))
+ df <- p*(p-1)/2
+ p.value <- pchisq(chisq, df, lower.tail=FALSE)
+ names(chisq) <- "Khi-squared"
+ names(df) <- "df"
+ return(structure(list(statistic=chisq, parameter=df, p.value=p.value,
+ method=method, data.name=data.name), class="htest"))}
> library(biotools)
> dataakhir<-datadiskriminan[c(6:35),2:6]
> attach(dataakhir)
> View(dataakhir)
> uji_bart(dataakhir)
Bartlett's test of sphericity
data: dataakhir
Khi-squared = 87.373, df = 10, p-value = 1.774e-14Langkah selanjutnya yaitu membuat function untuk Uji Barlet. Dimana Uji Barlet mengandung nilai chisquare dan p-value yang dimana pada syntax tersebut diberi nama uji_bart.Langkah selanjutnya yaitu mengaktifkan library biotools. Selanjutnya mendefinisikan data baru yang diambil dari datadiskriminan non-outliers yaitu dari baris 6 hingga 35 . Kemudian dilakukan uji-barlet menggunakan function uji_bart dari data akhir.
2.2.4 Pengujian Perbedaan Rata-Rata Variabel Dependen
> library(candisc)
> X<-as.matrix(dataakhir[2:5])
> X.manova<-manova(X~dataakhir$IPM, data=dataakhir)
> X.wilks<-summary(X.manova, test="Wilks")
> X.wilks
Df Wilks approx F num Df den Df Pr(>F)
dataakhir$IPM 1 0.29946 14.621 4 25 2.776e-06 ***
Residuals 28
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Langkah selanjutnya mengaktifkan library candisc. Lalu mendefinisikan matriks dari kolom 2, 3, 4 dan 5 dimana dalam syntax diatas diberi nama X. Dengan kata lain X merupakan variabel independen. Selanjutnya yaitu melakukan Uji Manova variabel dependent terhadap variabel independent dengan function manova dan disimpan dengan X.manova. Setelah itu, melakukan uji perbedaan rata-rata dengan uji wilks lambda dengan function summary() dan diberi nama X.wilks.
2.2.5 Kontribusi Variabel Prediktor Terhadap Variabel Respon
> cc<-candisc(X.manova)
> cc
Canonical Discriminant Analysis for dataakhir$IPM:
CanRsq Eigenvalue Difference Percent Cumulative
1 0.70054 2.3394 100 100
Test of H0: The canonical correlations in the
current row and all that follow are zero
LR test stat approx F numDF denDF Pr(> F)
1 0.29946 14.621 4 25 2.776e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Kontribsui variabel independent terhadap variabel dependent menggunakan function candisc() dan diberi nama cc
2.2.6 Membuat Fungsi Diskriminan
> library(MASS)
> library(caret)
> modellda<-lda(IPM~., data = dataakhir)
> modellda
Call:
lda(IPM ~ ., data = dataakhir)
Prior probabilities of groups:
0 1
0.4666667 0.5333333
Group means:
`Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
0 73.61143 12.37500 7.145
1 75.66813 13.01562 8.230
`Pengeluaran per kapita disesuaikan`
0 10143.93
1 11821.44
Coefficients of linear discriminants:
LD1
`Usia harapan hidup saat ini` 0.4621447328
`Harapan lama sekolah` 1.0275569240
`Rata-rata lama sekolah` -0.0340927843
`Pengeluaran per kapita disesuaikan` 0.0008286707Mengaktifkan library MASS dan library caret. Lalu membuat fungsi diskriminan menggunakan function lda() yang diberi nama modellda
2.2.7 Membuat tabel klasifikasi dan menguji ketepatan model
> pred_LDA1<- predict(modellda, dataakhir)
> pred_LDA1
$class
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Levels: 0 1
$posterior
0 1
1 0.0001142463 9.998858e-01
2 0.0001022625 9.998977e-01
3 0.0007166430 9.992834e-01
4 0.0035278272 9.964722e-01
5 0.0021879964 9.978120e-01
6 0.0005777456 9.994223e-01
7 0.0016378071 9.983622e-01
8 0.0005313714 9.994686e-01
9 0.0871657668 9.128342e-01
10 0.0738033201 9.261967e-01
11 0.0351794296 9.648206e-01
12 0.0514460528 9.485539e-01
13 0.1223887899 8.776112e-01
14 0.0425694558 9.574305e-01
15 0.7175289710 2.824710e-01
16 0.8342488550 1.657511e-01
17 0.7100728626 2.899271e-01
18 0.7478859733 2.521140e-01
19 0.9692129124 3.078709e-02
20 0.9225222110 7.747779e-02
21 0.9651248196 3.487518e-02
22 0.8579698147 1.420302e-01
23 0.9466987972 5.330120e-02
24 0.9959679977 4.032002e-03
25 0.9952762567 4.723743e-03
26 0.9770688311 2.293117e-02
27 0.9970056711 2.994329e-03
28 0.9970005667 2.999433e-03
29 0.9997140790 2.859210e-04
30 0.9999037360 9.626399e-05
$x
LD1
1 2.9208064
2 2.9582236
3 2.3006520
4 1.7615769
5 1.9233118
6 2.3734379
7 2.0212830
8 2.4017033
9 0.6491773
10 0.7102669
11 0.9742199
12 0.8401580
13 0.5213053
14 0.9072475
15 -0.4585576
16 -0.6894267
17 -0.4462346
18 -0.5109337
19 -1.3084063
20 -0.9801459
21 -1.2648844
22 -0.7510379
23 -1.1151620
24 -2.0039314
25 -1.9502381
26 -1.4105951
27 -2.1047404
28 -2.1041636
29 -2.8986521
30 -3.2662599
> table(actual=dataakhir$IPM, predicted=pred_LDA1$class)
predicted
actual 0 1
0 14 0
1 2 14Membuat tabel prediksi dan aktual yang digunakan untuk menguji ketepatan model. Menggunakan function predict() dan disimpan dengan nama pred_LDA1 lalu membuat tabel dengan function table
3 HASIL DAN PEMBAHASAN
3.1 Input Data
> View(datadiskriminan)Data diambil dari Badan Pusat Statistik Jawa tengah sebanyak 35 Kabupaten/Kota. Variabel independent terdiri dari variabel usia harapan hidup saat lahir,harapan lama sekolah, rata-rata lama sekolah, dan pengeluaran per kapita disesuaikan. Sedangkan variabel dependent yaitu Indeks pembangunan Manusia (IPM) yang memiliki tipe data kategori.
Dimana :
Variabel \(X_1\) = Usia harapan hidup saat lahir
Variabel \(X_2\) = Harapan lama sekolah
Variabel \(X_3\) = Rata-rata lam sekolah
Variabel \(X_4\) = Pengeluaran per kapita disesuaikan
Variabel Y = Indeks Pembangunan Manusia (IPM), teridri dari:
0 = Kabupaten/Kota yang memiliki IPM rendah.
1 = Kabupaten/Kota yang memiliki IPM tinggi.
3.2 Cek Outlier
> hasildata<-mvn(datacek[,3:6], multivariateOutlierMethod = "adj", showNewData = TRUE)> hasildata
$multivariateNormality
Test HZ p value MVN
1 Henze-Zirkler 1.166896 0.0005703168 NO
$univariateNormality
Test Variable Statistic p value
1 Anderson-Darling Usia harapan hidup saat ini 0.3845 0.3756
2 Anderson-Darling Harapan lama sekolah 1.0838 0.0066
3 Anderson-Darling Rata-rata lama sekolah 1.4348 0.0009
4 Anderson-Darling Pengeluaran per kapita disesuaikan 1.1275 0.0052
Normality
1 YES
2 NO
3 NO
4 NO
$Descriptives
n Mean Std.Dev Median
Usia harapan hidup saat ini 35 75.112286 1.8210115 74.93
Harapan lama sekolah 35 13.016286 0.9199587 12.91
Rata-rata lama sekolah 35 8.141143 1.2688850 7.79
Pengeluaran per kapita disesuaikan 35 11533.600000 1813.5389063 10937.00
Min Max 25th 75th
Usia harapan hidup saat ini 69.74 77.82 74.050 76.365
Harapan lama sekolah 11.78 15.54 12.445 13.345
Rata-rata lama sekolah 6.35 10.95 7.295 8.895
Pengeluaran per kapita disesuaikan 8994.00 16351.00 10172.000 12485.000
Skew Kurtosis
Usia harapan hidup saat ini -0.6181069 0.4185732420
Harapan lama sekolah 1.1505161 0.9692258777
Rata-rata lama sekolah 0.9650954 -0.0006261298
Pengeluaran per kapita disesuaikan 1.0718135 0.5776115555
$newData
# A tibble: 30 × 4
`Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
<dbl> <dbl> <dbl>
1 76.8 13.2 9.06
2 76.1 12.6 8.08
3 75.9 13.0 8.05
4 75.9 12.9 7.79
5 75.0 13.5 8.32
6 75.5 13.3 8.1
7 74.5 13.0 7.71
8 73.9 13.2 7.78
9 76.0 12.8 8.09
10 76.3 13.0 7.79
# ℹ 20 more rows
# ℹ 1 more variable: `Pengeluaran per kapita disesuaikan` <dbl>Plot diatas yaitu Q-Q Plot analisis multivariat untuk mendeteksi adanya outlier dari data dengan bantuan function MVN sehingga harus memanggil packages MVN dengan data yang digunakan adalah kolom ke 3 hingga kolom ke 6. Berdasarkan gambar diatas, dapat diketahui bahwa pada data yang digunakan masih terdapat data outlier dengan total outlier sebanyak 5 data yaitu data ke 1,2,3,4 dan 5. Yang kemudian dilakukan penanganan dengan cara membuang baris yang mengandung outlier. Sehingga akan disimpan menjadi data baru.
3.3 Uji Asumsi Multivariat Normality
> hasil$multivariateNormality
Test H p value MVN
1 Royston 6.931409 0.1351608 YESDari data yang telah dibuang outliernya di uji dengan menggunakan Uji Royston dengan tingkat kepercayaan 95%.
Hipotesis:
\(H_0\) : Variabel prediktor berdistribusi normal multivariat.
\(H_1\) : Variabel prediktor tidak berdistribusi normal multivariat.
Keputusan :
- p-value (0,1351608) > \(\alpha\) (0,05), Maka Terima H0
Kesimpulan :
- Berdasarkan hasil keputusan diatas, dengan tingkat kepercayaan 95% maka dapat disimpulkan bahwa data telah berdistribusi normal multivariat
3.4 Uji Asumsi Homogenitas Matriks Ragam Peragam
> uji_bart(dataakhir)
Bartlett's test of sphericity
data: dataakhir
Khi-squared = 87.373, df = 10, p-value = 1.774e-14Dari data baru yang diuji dengan menggunakan Uji Asumsi Homogenitas Matriks Ragam Peragam dengan tingkat kepercayaan 95%, maka diperoleh sebagai berikut
Hipotesis:
\(H_0\) : Memiliki matriks ragam-peragam yang sama.
\(H_1\) : Tidak memiliki matriks ragam peragam yang sama.
Keputusan :
- p-value (1,774e-14) < \(\alpha\) (0,05), Maka Terima H0
Kesimpulan :
- Berdasarkan hasil keputusan diatas, dengan tingkat kepercayaan 95% maka dapat disimpulkan bahwa data memiliki matriks ragam peragam yang sama.
3.5 Uji Vektor Nilai Rata-Rata Kedua Kelompok ( Wilks Lambda)
> X.wilks
Df Wilks approx F num Df den Df Pr(>F)
dataakhir$IPM 1 0.29946 14.621 4 25 2.776e-06 ***
Residuals 28
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Dari data baru yang diuji dengan menggunakan Uji Vektor Nilai Rata-Rata Kedua Kelompok dengan tingkat kepercayaan 95%, maka diperoleh sebagai berikut
Hipotesis:
\(H_0\) : Tidak terdapat perbedaan rata-rata indeks pembangunanan manusia kategori tingi dan rendah.
\(H_1\) : Terdapat perbedaan rata-rata indeks pembangunan manusia kategori tinggi dan rendah.
Keputusan :
- p-value (2,776e-06) < \(\alpha\) (0,05), Maka Tolak H0
Kesimpulan :
- Berdasarkan hasil keputusan diatas, dengan tingkat kepercayaan 95% maka dapat disimpulkan bahwa terdapat perbedaan rata-rata indeks pembangunan manusia kategori tinggi dan kategori rendah.
3.6 Pengujian Kontribusi Variabel Prediktor Terhadap Respon
> cc
Canonical Discriminant Analysis for dataakhir$IPM:
CanRsq Eigenvalue Difference Percent Cumulative
1 0.70054 2.3394 100 100
Test of H0: The canonical correlations in the
current row and all that follow are zero
LR test stat approx F numDF denDF Pr(> F)
1 0.29946 14.621 4 25 2.776e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Hasil dari pengujian yang didapat menunjukan bahwa nilai Canonical Correlation sebesar 0,70054, artinya variabel usia harapan hidup saat lahir, harapan lama sekolah, rata-rata lama sekolah dan pengeluaran per kapita disesuaikan dapat mempengaruhi Indeks Pembangunan Manusia (Kategori IPM tinggi atau rendah) sebesar 70,054% sedangkan 29,946% lainnya dipengaruhi oleh variabel lain diluar penelitian.
3.7 Fungsi Diskriminan
> modellda<-lda(IPM~., data = dataakhir)
> modellda
Call:
lda(IPM ~ ., data = dataakhir)
Prior probabilities of groups:
0 1
0.4666667 0.5333333
Group means:
`Usia harapan hidup saat ini` `Harapan lama sekolah` `Rata-rata lama sekolah`
0 73.61143 12.37500 7.145
1 75.66813 13.01562 8.230
`Pengeluaran per kapita disesuaikan`
0 10143.93
1 11821.44
Coefficients of linear discriminants:
LD1
`Usia harapan hidup saat ini` 0.4621447328
`Harapan lama sekolah` 1.0275569240
`Rata-rata lama sekolah` -0.0340927843
`Pengeluaran per kapita disesuaikan` 0.0008286707Dalam menentukan fungsi diskriminan, dilakukan dengan bantuan function lda dari output Coefficients of linear discriminants tersebut didapatkan semua variabel membentuk fungsi diskriminan yaitu \(X_1\), \(X_2\), \(X_3\) dan \(X_4\). Sehingga model fungsi diskriminan yang terbentuk yaitu: \[ \hat{D} = 0,46214X_1 + 1,02755X_2 - 0,03409X_3 + 0,00082X_4 \] Berdasarkan model yang dihasilkan dapat diketahui bahwa variabel \(X_1\), \(X_2\) dan \(X_4\) bertanda postif sedangkan variabel \(X_3\) bertanda negatif. Dapat disimpulkan bahwa variabel usia harapan hidup saat lahir, harapan lama sekolah dan pengeluaran per kapita disesuaikan berpengaruh secara positif terhadap indeks pembangunan manusia sedangkan rata-rata lama sekolah tidak berpengaruh secara positif terhadap indeks pembangunan manusia.
3.8 Membuat Tabel Klasifikasi dan Menguji Ketepatan Model
> table(actual=dataakhir$IPM, predicted=pred_LDA1$class)
predicted
actual 0 1
0 14 0
1 2 14Dapat dikethaui bahwa indeks pembangunan manusia yang rendah tetap berada pada kategori rendah sebanyak 14 Kabupaten/Kota sedangkan pada indeks pembangunan manusia kategori tinggi dari data awal 16, berada tetap di kategori tinggi sebanyak 14 dan 2 lain berada pada kategori rendah.
\[ HitRatio = \frac {14+14} {14+2+0+14} = 0,933333 \]
Sehingga dapat disimpulkan bahwa tingkat akurasi yang diklasifikasin benar oleh model adalah sebesar 93,33%
4 PENUTUP
4.1 KESIMPULAN
Berdasarkan hasil analisis yang telah dilakukan, maka dapat diambil kesimpulan bahwa rata-rata indikator Indeks Pembangunan Manusia (IPM) dari Kabupaten/Kota yang memiliki IPM tingi lebih besar daripada Kabupaten/Kota yang meiliki IPM rendah. Dari hasil pengujian asumsi kenormalan, asumsi kesamaan matriks ragam peragam dan nilai vektor rataannya terpenuhi, sehingga dapat diperoleh fungsi diskriminan sebagai berikut :
\[ \hat{D} = 0,46214X_1 + 1,02755X_2 - 0,03409X_3 + 0,00082X_4 \] Berdasarkan fungsi diskriminan tersebut dapat disimpulkan bahwa variabel usia harapan hidup saat lahir, harapan lama sekolah dan pengeluaran per kapita disesuaikan berpengaruh secara positif terhadap indeks pembangunan manusia sedangkan rata-rata lama sekolah tidak berpengaruh secara positif terhadap indeks pembangunan manusia. Hasil validasi fungsi diskriminan yang terbentuk menunjukkan bahwa fungsi tersebut akurat dan stabil. Ketepatan fungsi diskriminan adalah 93,33% atau terdapat 0 kesalahan dalam mengklasifikasikan kelompok IPM rendah dan 2 kesalahan dalam mengklasifikasi kelompok IPM tinggi dari 35 Kabupaten/Kota yang berada di Provinsi Jawa Tengah .
4.2 Saran
Data menunjukkan bahwa rata-rata indikator Indeks Pembangunan Manusia (IPM) dari Kabupaten/Kota yang memiliki IPM tingi lebih besar daripada Kabupaten/Kota yang meiliki IPM rendah . Untuk mengatasi kesenjangan tersebut, perlu dilakukan pemerataan aspek pembangunan dari segi pendidikan, sosial maupun ekonomi. Salah satu kebijakannya, antara lain kebijakan mengenai pentingnya pendidikan bagi masyarakat untuk memperbaiki kulaitas Indeks Pembangunan Manusia menjadi lebih baik lagi.Tentunya selain peran penting dari pemerintah hal tersebut tidak akan terlaksana jika tidak adanya kesadaran diri dari masing-masing individu untuk memperbaiki kualitas dirinya masing-masing.
5 DAFTAR PUSTAKA
BPS. 2022. Indeks Pembangunan Manusia (Metode Baru). Jawa Tengah: Badan Pusat Statistik
Johnson R.A dan D.W. Wichern. 2007. Applied Multivariate Statistika Analysis .Ed ke-6. New Jersey: Prentice Hall Inc.
- Supranto J.2004. Analisis Multivariat Arti dan Interpretasi . Jakarta
-
Rineka Cipta.