Analisis Kruskal pada data Populasi di negara Bangladesh, Indonesia, dan Jepang pada tahun 2000-2015

Lhyanisa Aghina Putri
M0722046

1. PENDAHULUAN

1.1 Latar Belakang

Setiap negara tentunya memiliki jumlah penduduk yang berbeda-beda hal ini dipengaruhi oleh beberapa faktor. Populasi penduduk yang sedikit dapat menimbulkan dampak positif maupun negatif, pada setiap negara, tentu populasi yang sedikit menjadi tantangan besar dalam penanganannya . Peneliti ingin meneliti apakah terdapat perbedaan dalam tingkat populasi penduduk yang ada pada negara Bangladesh, Indonesia, dan Jepang agar dapat mengetahui penanganan permasalahan populasi penduduk yang juga berbeda-beda.

1.2 Landasan Teori

1.2.1 Kruskal-Wallis

Uji Kruskal Wallis adalah uji nonparametrik berbasis peringkat yang tujuannya untuk menentukan adakah perbedaan signifikan secara statistik antara dua atau lebih kelompok variabel independen pada variabel dependen yang berskala data numerik (interval/rasio) dan skala ordinal.

Uji ini identik dengan Uji One Way Anova pada pengujian parametris, sehingga uji ini merupakan alternatif bagi uji One Way Anova apabila tidak memenuhi asumsi misal asumsi normalitas. Selain sebagai uji alternatif, kegunaan lain adalah sebagai perluasan dari uji Mann Whitney U Test, di mana kita ketahui bahwa uji tersebut hanya dapat digunakan pada 2 kelompok variabel dependen. Sedangkan Kruskall Wallis dapat digunakan pada lebih dari 2 kelompok misal 3, 4 atau lebih.

Rumus uji Kruskal-Wallis

\[H = \frac{12}{N(N+1)} \sum_{j=1}^k \frac{R^2_j}{n_j} - 3(N+1)\] Keterangan :

H: nilai Kruskal-Wallis dari hasil perhitungan

\(R_j\): jumlah rank dari kelompok/kategori ke-j

\(n_j\): banyaknya kasus dalam sampel pada kelompok/kategori ke-j

k: banyaknya kelompok/kategori

N: jumlah seluruh observasi (N = \(n_1 + n_2 + ... + n_k\))

1.2.2 Uji Normalitas Shapiro-Wilk

Uji normalitas adalah prosedur statistik yang digunakan untuk menentukan apakah sekumpulan data mengikuti distribusi normal sebagai syarat yang harus dipenuhi dalam statistika parametrik. Hal yang membedakan uji normalitas menggunakan metode shapiro-wilk dengan metode lainnya yaitu dari kuantitas data, Shapiro-wilk sangat berguna untuk mendeteksi deviasi dari distribusi normal untuk sampel yang kecil hingga menengah, sehingga untuk ukuran sampel yang besar tidak dianjurkan untuk menggunakan metode ini. Selain itu, salah satu keunggulan utama uji Shapiro-Wilk adalah kekuatan statistiknya yang tinggi, terutama untuk sampel kecil hingga menengah, dibandingkan dengan uji normalitas lainnya seperti uji Kolmogorov-Smirnov atau uji Anderson-Darling. Statistik uji Shapiro wilk dapat dirumuskan sebagai berikut.

\[W = \frac{b^2}{(n - 1) s^2} \]

\[b^2 = \sum_{i=1}^{n/2} a_{n-i+1} (x_{n-i+1} - x_i)\]

\[s^2 = \sum_{i=1}^{n/2} \frac{(X_i - \bar{X})}{(n-1)}\]

1.3 Library

Proses yang pertama dilakukan adalah persiapan library yang akan digunakan dalam analisis data menggunakan R. Dengan mempersiapkan library-library ini, kita dapat menggunakan berbagai fungsi dan alat yang diperlukan untuk melakukan analisis data dengan lebih efisien dan efektif.

# Menyiapkan package-package yang diperlukan
library(rmarkdown)
library(knitr)
library(kableExtra)
library(ggpubr)
library(readxl)
library(agricolae)

2. DESKRIPSI DATA

Data yang digunakan yaitu data population_mln dari negara Bangladesh, Indonesia, Jepang pada tahun 2000 hingga 2015.

DATA <- read_excel("C:/Users/Asus/Documents/Sistem Informasi Manajemen/DATA CM 2 ANOVA 1 ARAH.xlsx")
col_types = c("numeric", "numeric","numeric")
DATA
## # A tibble: 43 × 3
##    Bangladesh Indonesia Jepang
##         <dbl>     <dbl>  <dbl>
##  1       143.      212.   127.
##  2       149.      214.   127.
##  3       137.      217.   127.
##  4       130.      220.   128.
##  5       139.      223.   128.
##  6       135.      226.   128.
##  7       155.      229.   128.
##  8       153.      232.   128 
##  9       141.      235.   128.
## 10       146.      239.   128.
## # ℹ 33 more rows

Visualisasi Data menggunakan plot Histogram

hist(DATA$Bangladesh)

hist(DATA$Indonesia)

hist(DATA$Jepang)

2.1 Statistika Deskriptif

Pada langkah ini, dilakukan penghitungan statistika deskriptif untuk variabel tingkat penyelesaian pendidikan. Statistika deskriptif ini memberikan gambaran tentang sebaran dan karakteristik data pada variabel tersebut.

summary(DATA)
##    Bangladesh        Indonesia         Jepang     
##  Min.   :   0.37   Min.   :  2.8   Min.   :126.8  
##  1st Qu.:  15.31   1st Qu.: 27.5   1st Qu.:127.5  
##  Median : 127.66   Median : 49.1   Median :127.8  
##  Mean   : 140.96   Mean   :109.1   Mean   :127.6  
##  3rd Qu.: 146.75   3rd Qu.:224.8   3rd Qu.:128.0  
##  Max.   :1337.71   Max.   :258.4   Max.   :128.1

Berdasarkan hasil perhitungan tersebut, diketahui bahwa tingkat populasi di Bangladesh, Indonesia, Jepang masing masing memiliki rata-rata sebesar 140.96, 109.1 dan 127.6.

3. PEMBAHASAN

3.1 Uji Normalitas

  1. Hipotesis

    H0: Residu data jenis kelamin dan jenjang pendidikan terhadap tingkat penyelesaian pendidikan tidak berdistribusi normal

    H1: Residu data jenis kelamin dan jenjang pendidikan terhadap tingkat penyelesaian pendidikan berdistribusi normal

  2. Tingkat signifikansi

    α = 0,05

  3. Daerah kritis

    H0 ditolak jika P-value < α = 0,05

  4. Statistik uji

statistik uji normalitas populasi di negara bangladesh

shapiro.test(DATA$Bangladesh)
## 
##  Shapiro-Wilk normality test
## 
## data:  DATA$Bangladesh
## W = 0.43561, p-value = 1.188e-11

Kesimpulan : karena p-value = \(1.188e^-11\) < 0.05 maka data populasi di negara bangladesh dari tahun 2000 hingga 2015 tidak berdistribusi normal.

shapiro.test(DATA$Indonesia)
## 
##  Shapiro-Wilk normality test
## 
## data:  DATA$Indonesia
## W = 0.77783, p-value = 1.237e-06

Kesimpulan : karena p-value = \(1.237e^-06\) < 0.05 maka data populasi di negara Indonesia dari tahun 2000 hingga 2015 tidak berdistribusi normal.

shapiro.test(DATA$Jepang)
## 
##  Shapiro-Wilk normality test
## 
## data:  DATA$Jepang
## W = 0.89345, p-value = 0.0007964

Kesimpulan : karena p-value = \(0.0007964\) < 0.05 maka data populasi di negara Jepang dari tahun 2000 hingga 2015 tidak berdistribusi normal.

Visualisasi Uji Normalitas Shapiro-Wilk Menggunakan Q-Q Plot

ggqqplot(DATA$Bangladesh) 

ggqqplot(DATA$Indonesia)

ggqqplot(DATA$Jepang)

3.2 Uji Kruskal-Wallis

Setelah bahwa data berdistribusi tidak normal selanjutnya menguji data-data tersebut menggunakan uji kruskal-wallis.

kruskal.test(DATA, alternative="two.sided", conf.level = 0.95)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  DATA
## Kruskal-Wallis chi-squared = 1.4705, df = 2, p-value = 0.4794

karena P-value = $0.4794 > 0.05 maka tidak terdapat perbedaan signifikan terhadap tingkat populasi antara negara Bangladesh, Indonesia, dan Jepang pada tahun 2000 hingga 2015.

Interpretasi

Berdasarkan perhitungan analisis uji kruskal pada data populasi di negara Bangladesh, Indonesia, dan Jepang menghasilkan P-Value yang lebih besar dari 0.05 sehingga dapat disimpulkan bahwa terdapat perbedaan signifikan pada tingkat populasi dari masing-masing negara tersebut. Tingkat populasi yang berbeda menandakan bahwa permasalahan dari setiap negara mengenai populasi berbeda-beda pula, baik populasi yang berlebih maupun populasi yang sedikit, sehingga penanganan permasalahan dari tiap negara pun berbeda-beda pula.