Nama	Salsabila Rahmadina Winsadin
NIM	24050123140058
Mata Kuliah	Komputasi Statistika Lanjutan
Program Studi	Statistika
Universitas	Universitas Diponegoro

1 Pendahuluan

1.1 Latar Belakang

Kemiskinan merupakan salah satu permasalahan sosial dan ekonomi yang masih menjadi perhatian utama dalam pembangunan di Indonesia. Tingkat kemiskinan yang tinggi dapat mempengaruhi kesejahteraan masyarakat serta menghambat proses pembangunan suatu negara. Oleh karena itu, diperlukan berbagai upaya untuk memahami faktor-faktor yang mempengaruhi tingkat kemiskinan agar kebijakan yang diambil dapat lebih tepat sasaran.

BPS.com sebagai lembaga resmi penyedia data statistik di Indonesia secara rutin merilis data mengenai kondisi sosial ekonomi masyarakat, termasuk data persentase penduduk miskin di setiap provinsi. Data tersebut dapat digunakan untuk menganalisis berbagai faktor yang berhubungan dengan tingkat kemiskinan di Indonesia.

Salah satu faktor yang diduga mempengaruhi tingkat kemiskinan adalah tingkat kesejahteraan ekonomi masyarakat. Dalam analisis ini, tingkat kesejahteraan tersebut diwakili oleh variabel pengeluaran per kapita disesuaikan. Pengeluaran per kapita mencerminkan kemampuan masyarakat dalam memenuhi kebutuhan hidup sehari-hari. Semakin tinggi tingkat pengeluaran masyarakat, maka umumnya kesejahteraan masyarakat juga semakin baik.

Selain faktor ekonomi, faktor pendidikan juga memiliki peran penting dalam menentukan tingkat kemiskinan. Pendidikan yang lebih baik dapat meningkatkan kualitas sumber daya manusia sehingga masyarakat memiliki peluang yang lebih besar untuk memperoleh pekerjaan yang layak dan meningkatkan pendapatan. Dalam analisis ini, faktor pendidikan diwakili oleh Angka Partisipasi Sekolah (APS) yang menunjukkan tingkat keikutsertaan penduduk dalam kegiatan pendidikan formal.

Untuk mengetahui hubungan antara variabel-variabel tersebut dengan tingkat kemiskinan, diperlukan suatu metode analisis statistik yang tepat. Salah satu metode yang dapat digunakan adalah analisis regresi linear berganda. Metode ini digunakan untuk mengetahui pengaruh lebih dari satu variabel independen terhadap satu variabel dependen secara simultan maupun parsial.

Berdasarkan uraian tersebut, analisis ini dilakukan untuk menganalisis pengaruh pengeluaran per kapita disesuaikan dan angka partisipasi sekolah terhadap persentase penduduk miskin di Indonesia menggunakan metode regresi linear berganda dengan data yang bersumber dari Badan Pusat Statistik (BPS) tahun 2019.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan, maka rumusan masalah dalam analisis ini adalah sebagai berikut:

Bagaimana karakteristik data dari variabel Pengeluaran Per Kapita Disesuaikan, Angka Partisipasi Sekolah, dan Persentase Penduduk Miskin di Indonesia?
Bagaimana pengaruh variabel Pengeluaran Per Kapita Disesuaikan dan Angka Partisipasi Sekolah terhadap Persentase Penduduk Miskin secara simultan?
Bagaimana pengaruh masing-masing variabel independen yaitu Pengeluaran Per Kapita Disesuaikan dan Angka Partisipasi Sekolah terhadap Persentase Penduduk Miskin secara parsial?
Apakah model regresi linear berganda yang terbentuk memenuhi asumsi klasik regresi?

1.3 Tujuan analisis

Adapun tujuan dari analisis ini adalah:

Mengetahui karakteristik data dari variabel Pengeluaran Per Kapita Disesuaikan, Angka Partisipasi Sekolah, dan Persentase Penduduk Miskin di Indonesia.
Menganalisis pengaruh Pengeluaran Per Kapita Disesuaikan dan Angka Partisipasi Sekolah terhadap Persentase Penduduk Miskin secara simultan.
Menganalisis pengaruh masing-masing variabel independen terhadap Persentase Penduduk Miskin secara parsial.
Mengetahui apakah model regresi linear berganda yang terbentuk memenuhi asumsi klasik regresi.

2 Landasan Teori

2.1 Data Kemiskinan di Indonesia

Data yang digunakan dalam analisis ini merupakan data yang berkaitan dengan kondisi sosial ekonomi masyarakat di Indonesia. Data tersebut bersumber dari Badan Pusat Statistik (BPS) tahun 2019 yang memuat berbagai indikator pembangunan di tingkat provinsi. Data ini digunakan untuk menganalisis faktor-faktor yang mempengaruhi tingkat kemiskinan di Indonesia menggunakan pendekatan statistik.

Variabel yang digunakan dalam analisis ini meliputi:

Persentase Penduduk Miskin (Y) Variabel ini merupakan variabel dependen yang menunjukkan persentase penduduk yang berada di bawah garis kemiskinan di suatu wilayah. Persentase penduduk miskin digunakan sebagai indikator untuk menggambarkan tingkat kesejahteraan masyarakat.
Pengeluaran Per Kapita Disesuaikan (X1) Variabel ini menunjukkan rata-rata pengeluaran penduduk per kapita yang telah disesuaikan dengan daya beli masyarakat. Pengeluaran per kapita sering digunakan sebagai indikator untuk mengukur tingkat kesejahteraan ekonomi masyarakat. Semakin tinggi pengeluaran per kapita, maka umumnya tingkat kesejahteraan masyarakat juga semakin baik.
Angka Partisipasi Sekolah (X2) Variabel ini menunjukkan tingkat partisipasi penduduk dalam kegiatan pendidikan formal. Angka partisipasi sekolah menggambarkan seberapa besar penduduk yang mengikuti pendidikan pada jenjang tertentu. Tingkat pendidikan yang lebih tinggi diharapkan dapat meningkatkan kualitas sumber daya manusia dan mengurangi tingkat kemiskinan.

2.2 Analisis Regresi Linear Berganda

Regresi linear berganda merupakan metode analisis statistik yang digunakan untuk mengetahui hubungan antara satu variabel dependen dengan lebih dari satu variabel independen. Metode ini dapat digunakan untuk mengetahui pengaruh variabel independen terhadap variabel dependen baik secara simultan maupun parsial.

Secara umum, model regresi linear berganda dapat dituliskan sebagai berikut:

\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon \]

\(Y\)	Persentase Penduduk Miskin (Variabel Dependen)
\(X_1\)	Pengeluaran Per Kapita (Variabel Independen)
\(X_2\)	Angka Partisipasi Sekolah (Variabel Independen)
\(\beta_0\)	Konstanta
\(\beta_1\), \(\beta_2\)	Koefisien Regresi
\(\varepsilon\)	error

3 Persiapan Package

Pada tahap ini dilakukan persiapan package yang diperlukan untuk proses analisis data. Package yang digunakan dalam analisis ini antara lain openxlsx dan lmtest.

Package openxlsx digunakan untuk membaca dan mengimpor data dari file Excel ke dalam lingkungan R.
Package lmtest digunakan untuk melakukan pengujian statistik pada model regresi, seperti uji heteroskedastisitas dan uji autokorelasi.

Kode program yang digunakan juga dirancang untuk memeriksa apakah package yang diperlukan telah terpasang pada sistem. Jika package belum tersedia, maka sistem secara otomatis akan menginstalnya dari repositori CRAN sebelum digunakan dalam proses analisis. Dengan demikian, proses analisis dapat berjalan tanpa kendala terkait ketersediaan package.

needed_packages <- c("openxlsx", "lmtest")

for (p in needed_packages) {
  if (!require(p, character.only = TRUE)) {
    install.packages(p, repos = "https://cloud.r-project.org")
    library(p, character.only = TRUE)
  }
}

4 Import Data

Pada tahap ini dilakukan proses pengimporan dataset ke dalam lingkungan kerja R. Dataset yang digunakan berisi informasi mengenai faktor-faktor yang diduga mempengaruhi Performance Index siswa.

Data diimpor dari file Excel menggunakan package openxlsx. Setelah data berhasil dimuat, dilakukan beberapa pemeriksaan awal untuk memastikan bahwa data telah terbaca dengan benar oleh sistem.

Langkah pertama adalah menampilkan nama variabel yang terdapat dalam dataset. Hal ini bertujuan untuk memastikan bahwa setiap variabel telah terdeteksi dengan benar oleh R. Variabel yang terdapat dalam dataset ini terdiri dari:

Persentase Penduduk Miskin – menunjukkan persentase penduduk yang berada di bawah garis kemiskinan
Pengeluaran Per Kapita Disesuaikan – rata-rata pengeluaran masyarakat per kapita yang telah disesuaikan dengan daya beli
Angka Partisipasi Sekolah – tingkat partisipasi penduduk dalam mengikuti pendidikan formal

data <- openxlsx::read.xlsx(file.choose())
head(data)

5 Lihat nama variabel asli

names(data)

Selanjutnya dilakukan proses penyesuaian nama variabel agar lebih mudah digunakan dalam pemrograman di R. Penyesuaian ini dilakukan dengan mengganti nama variabel menjadi format huruf kecil dan menggunakan underscore (_) agar lebih sederhana ketika dipanggil dalam analisis.

## Ubah nama variabel agar lebih mudah dipanggil di R 


``` r
names(data) <- c("persentase_penduduk_miskin",
                 "pengeluaran_perkapita",
                 "angka_partisipasi_sekolah")

Untuk memberikan gambaran awal mengenai dataset, ditampilkan beberapa baris pertama dari data menggunakan fungsi head(). Tampilan ini membantu dalam melihat struktur data serta memastikan bahwa nilai-nilai pada setiap variabel telah terbaca dengan benar.

# Tampilkan 6 data pertama
head(data)

6 Statistik Deskriptif

Statistik deskriptif digunakan untuk memberikan gambaran umum mengenai karakteristik data yang digunakan dalam analisis. Melalui analisis ini dapat diketahui nilai minimum, kuartil pertama, median, rata-rata,(mean), kuartil ketiga, serta nilai maksimum dari setiap variabel yang terdapat dalam dataset.

summary(data)

##  persentase_penduduk_miskin pengeluaran_perkapita angka_partisipasi_sekolah
##  Length:25                  Min.   : 3.420        Min.   : 7769            
##  Class :character           1st Qu.: 5.910        1st Qu.:10114            
##  Mode  :character           Median : 8.560        Median :11115            
##                             Mean   : 9.481        Mean   :11326            
##                             3rd Qu.:12.300        3rd Qu.:12253            
##                             Max.   :20.620        Max.   :18527            
##        NA       
##  Min.   :17.01  
##  1st Qu.:23.11  
##  Median :25.59  
##  Mean   :27.51  
##  3rd Qu.:30.71  
##  Max.   :51.85

Berdasarkan hasil perhitungan statistik deskriptif, diperoleh informasi sebagai berikut:

Variabel persentase_penduduk_miskin memiliki nilai minimum sebesar 3,420 dan nilai maksimum sebesar 20,620, dengan rata-rata sekitar 9,481. Nilai median sebesar 8,560 menunjukkan bahwa sebagian besar provinsi memiliki persentase penduduk miskin sekitar 8–9 persen.
Variabel pengeluaran_perkapita memiliki nilai minimum sebesar 7.769 dan nilai maksimum sebesar 18.527, dengan rata-rata sekitar 11.326. Nilai median sebesar 11.115 menunjukkan bahwa sebagian besar provinsi memiliki tingkat pengeluaran per kapita yang berada di sekitar nilai tersebut.
Variabel angka_partisipasi_sekolah memiliki nilai minimum 17,01 dan maksimum 51,85, dengan rata-rata 27,51. Nilai median sebesar 25,59 menunjukkan bahwa sebagian besar provinsi memiliki angka partisipasi sekolah pada kisaran sekitar 25–26 persen.

7 Korelasi Antar Variabel

Analisis korelasi dilakukan untuk mengetahui hubungan linier antar variabel dalam dataset sebelum dilakukan pemodelan regresi. Korelasi membantu mengidentifikasi apakah terdapat hubungan yang kuat atau lemah antara variabel independen maupun antara variabel independen dengan variabel dependen.

Koefisien korelasi yang digunakan dalam analisis ini adalah koefisien korelasi Pearson, yang memiliki nilai antara -1 hingga 1. Nilai korelasi yang mendekati 1 menunjukkan hubungan positif yang kuat, sedangkan nilai yang mendekati -1 menunjukkan hubungan negatif yang kuat. Sementara itu, nilai korelasi yang mendekati 0 menunjukkan hubungan yang lemah atau tidak terdapat hubungan linier.

data_baru <- data.frame(
  persentase_penduduk_miskin = data[,2],
  pengeluaran_perkapita = data[,3],
  angka_partisipasi_sekolah = data[,4]
)

data <- data_baru 
str(data)

## 'data.frame':    25 obs. of  3 variables:
##  $ persentase_penduduk_miskin: num  15.01 8.63 6.9 7.51 14.91 ...
##  $ pengeluaran_perkapita     : num  9603 10649 11255 10592 10409 ...
##  $ angka_partisipasi_sekolah : num  32.5 25.8 28.2 23.3 30.7 ...

cor(data, use="complete.obs")

##                            persentase_penduduk_miskin pengeluaran_perkapita
## persentase_penduduk_miskin                  1.0000000          -0.648500106
## pengeluaran_perkapita                      -0.6485001           1.000000000
## angka_partisipasi_sekolah                   0.4437176          -0.006118334
##                            angka_partisipasi_sekolah
## persentase_penduduk_miskin               0.443717560
## pengeluaran_perkapita                   -0.006118334
## angka_partisipasi_sekolah                1.000000000

Berdasarkan output matriks korelasi yang diperoleh, dapat dibuat kesimpulan sebagai berikut:

Korelasi antara Persentase Penduduk Miskin dan Pengeluaran Perkapita Nilai korelasi sebesar -0.6485 menunjukkan bahwa terdapat hubungan negatif yang cukup kuat antara persentase penduduk miskin dan pengeluaran per kapita. Artinya, semakin tinggi pengeluaran per kapita suatu daerah, maka persentase penduduk miskin cenderung menurun.
Korelasi antara Persentase Penduduk Miskin dan Angka Partisipasi Sekolah Nilai korelasi sebesar 0.4437 menunjukkan adanya hubungan positif dengan kekuatan sedang antara persentase penduduk miskin dan angka partisipasi sekolah. Hal ini berarti ketika persentase penduduk miskin meningkat, angka partisipasi sekolah juga cenderung meningkat, meskipun hubungan tersebut tidak terlalu kuat.
Korelasi antara Pengeluaran Perkapita dan Angka Partisipasi Sekolah Nilai korelasi sebesar -0.0061 menunjukkan bahwa hubungan antara pengeluaran per kapita dan angka partisipasi sekolah sangat lemah atau hampir tidak ada hubungan.

Secara keseluruhan, variabel yang memiliki hubungan paling kuat adalah persentase penduduk miskin dengan pengeluaran per kapita, dengan arah hubungan negatif. Sementara itu, hubungan antara variabel lainnya relatif lemah hingga sedang.

Jika digunakan dalam analisis regresi, pengeluaran per kapita berpotensi menjadi variabel yang cukup berpengaruh terhadap persentase penduduk miskin, sedangkan angka partisipasi sekolah memiliki pengaruh yang lebih lemah.

8 Pembentukan Model Awal

Persamaan regresi dilihat dari koefisien pembentuk model.

model <- lm(persentase_penduduk_miskin ~ 
              pengeluaran_perkapita + 
              angka_partisipasi_sekolah,
            data = data)

summary(model)

## 
## Call:
## lm(formula = persentase_penduduk_miskin ~ pengeluaran_perkapita + 
##     angka_partisipasi_sekolah, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5112 -2.2268 -0.8384  2.2805  5.5754 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               17.4683637  4.1550859   4.204 0.000367 ***
## pengeluaran_perkapita     -0.0014190  0.0002911  -4.875 7.13e-05 ***
## angka_partisipasi_sekolah  0.2938228  0.0885091   3.320 0.003113 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.045 on 22 degrees of freedom
## Multiple R-squared:  0.6139, Adjusted R-squared:  0.5788 
## F-statistic: 17.49 on 2 and 22 DF,  p-value: 2.839e-05

coef_model <- coef(model)
coef_model

##               (Intercept)     pengeluaran_perkapita angka_partisipasi_sekolah 
##               17.46836374               -0.00141897                0.29382279

Persamaan regresi berdasarkan hasil estimasi adalah sebagai berikut

\[ \hat{Y} = 17.4683637 - 0.0014190X_1 + 0.2938228X_2 \]

9 Uji Simultan (Uji F)

Uji simultan (Uji F) digunakan untuk mengetahui apakah seluruh variabel independen secara bersama-sama memiliki pengaruh yang signifikan terhadap variabel dependen performance_index.

Hipotesis yang digunakan adalah sebagai berikut.

\(H_0\) : \(\beta_0\) = \(\beta_1\) = \(\beta_2\) = 0 (variabel \(X_1\), \(X_2\) secara simultan tidak berpengaruh signifikan terhadap \(Y\).
\(H_1\) : Minimal terdapat satu koefisien regresi yang tidak sama dengan nol (terdapat setidaknya satu variabel independen yang berpengaruh signifikan terhadap\(Y\).

anova(model)

Berdasarkan hasil analisis varians (ANOVA) pada model regresi, diperoleh nilai p-value untuk masing-masing variabel sebagai berikut:

Pengeluaran Perkapita memiliki nilai p-value sebesar 6.788 × 10⁻⁵. Angka Partisipasi Sekolah memiliki nilai p-value sebesar 3.113 × 10⁻³. Kedua nilai p-value tersebut lebih kecil dari tingkat signifikansi 𝛼= 0,05

Dengan demikian, H₀ ditolak dan H₁ diterima, yang berarti bahwa variabel pengeluaran per kapita dan angka partisipasi sekolah berpengaruh signifikan terhadap persentase penduduk miskin.

Selain itu, nilai F-value pada pengeluaran per kapita 23.97 lebih besar dibandingkan dengan angka partisipasi sekolah 11.02, yang menunjukkan bahwa pengeluaran per kapita memiliki pengaruh yang lebih kuat dalam menjelaskan variasi persentase penduduk miskin dibandingkan dengan angka partisipasi sekolah.

10 Uji Parsial (Uji t)

Uji parsial (Uji t) digunakan untuk mengetahui apakah masing-masing variabel independen memiliki pengaruh yang signifikan terhadap variabel dependen performance_index.

Hipotesis yang digunakan adalah sebagai berikut untuk setiap variabel independen.

\(H_0\) : \(\beta_i\) = 0 (variabel \(X_i\) tidak berpengaruh signifikan terhadap \(Y\).
\(H_1\) : \(\beta_i\) \(\ne\) 0 (variabel \(X_i\) berpengaruh signifikan terhadap\(Y\).

summary(model)$coefficients

##                              Estimate   Std. Error   t value     Pr(>|t|)
## (Intercept)               17.46836374 4.1550858545  4.204092 3.665174e-04
## pengeluaran_perkapita     -0.00141897 0.0002910672 -4.875060 7.132864e-05
## angka_partisipasi_sekolah  0.29382279 0.0885091166  3.319690 3.113126e-03

Berdasarkan hasil output regresi, diperoleh nilai p-value keempat variabel lebih kecil dari tingkat signifikansi \(\alpha\) = 0,05.

Berdasarkan hasil Uji Parsial (Uji t) pada output regresi, diperoleh nilai p-value untuk masing-masing variabel sebagai berikut:

Pengeluaran Perkapita memiliki nilai p-value sebesar 7.13 × 10⁻⁵.

Angka Partisipasi Sekolah memiliki nilai p-value sebesar 3.11 × 10⁻³.

Kedua nilai p-value tersebut lebih kecil dari tingkat signifikansi 𝛼= 0,05

Berdasarkan kriteria pengujian, yaitu jika p-value < α (0,05) maka 𝐻0 ditolak, sehingga dapat disimpulkan bahwa:

Pengeluaran per kapita berpengaruh signifikan terhadap persentase penduduk miskin.

Angka partisipasi sekolah juga berpengaruh signifikan terhadap persentase penduduk miskin.

Selain itu, nilai koefisien regresi menunjukkan bahwa:

Pengeluaran per kapita memiliki koefisien negatif (-0.0014), yang berarti semakin tinggi pengeluaran per kapita maka persentase penduduk miskin cenderung menurun.

Angka partisipasi sekolah memiliki koefisien positif (0.2938), yang berarti peningkatan angka partisipasi sekolah cenderung diikuti peningkatan persentase penduduk miskin dalam data ini, meskipun hubungan tersebut perlu dianalisis lebih lanjut.

11 Koefisien Determinasi

Koefisien determinasi digunakan untuk mengukur seberapa besar kemampuan variabel independen dalam menjelaskan variasi variabel dependen dalam model regresi. Nilai koefisien determinasi yang sangat tinggi ini menunjukkan bahwa model regresi yang dibentuk memiliki kemampuan yang sangat baik dalam menjelaskan hubungan antara variabel independen dan variabel dependen.

model_summary <- summary(model)

model_summary$r.squared

## [1] 0.6139395

model_summary$adj.r.squared

## [1] 0.5788431

Berdasarkan hasil output model regresi diperoleh nilai

Multiple R-squared sebesar 0.6139395
Adjusted R-squared sebesar 0.5788431

Berdasarkan hasil perhitungan koefisien determinasi diperoleh nilai R-squared = 0,6139 menunjukkan bahwa sekitar 61,39% variasi persentase penduduk miskin dapat dijelaskan oleh variabel pengeluaran per kapita dan angka partisipasi sekolah dalam model regresi yang digunakan. Sedangkan 38,61% sisanya dijelaskan oleh faktor lain di luar model analisis ini.

Sementara itu, nilai Adjusted R-squared = 0,5788 menunjukkan bahwa setelah mempertimbangkan jumlah variabel independen dalam model, sekitar 57,88% variasi persentase penduduk miskin masih dapat dijelaskan oleh model, sedangkan 42,12% dipengaruhi oleh variabel lain yang tidak dimasukkan dalam analisis.

12 Uji Asumsi Klasik

Uji asumsi klasik dilakukan untuk memastikan bahwa model regresi linear berganda yang diperoleh memenuhi asumsi dasar regresi sehingga estimasi parameter yang dihasilkan bersifat BLUE (Best Linear Unbiased Estimator). Beberapa asumsi yang diuji dalam analisis ini meliputi normalitas residual, multikolinearitas, heteroskedastisitas, autokorelasi, dan linearitas.

12.1 Residual Model

Residual merupakan selisih antara nilai aktual dengan nilai prediksi yang dihasilkan oleh model regresi. Analisis residual dilakukan untuk mengetahui apakah model regresi yang dibentuk telah memenuhi asumsi-asumsi yang diperlukan.

res <- residuals(model)
fit <- fitted(model)

head(res)

##         1         2         3         4         5         6 
##  1.607011 -1.293690 -2.871907 -1.780582  3.188396  3.103904

12.2 Uji Normalitas Residual

Uji normalitas residual bertujuan untuk mengetahui apakah residual dari model regresi berdistribusi normal atau tidak.

12.2.1 Uji normalitas menyesuaikan jumlah sampel

n_res <- length(res)

if (n_res >= 3 && n_res <= 5000) {
  shapiro_result <- shapiro.test(res)
  shapiro_result
} else {
  cat("Shapiro-Wilk tidak digunakan karena jumlah residual di luar batas 3 sampai 5000)")
}

## 
##  Shapiro-Wilk normality test
## 
## data:  res
## W = 0.94159, p-value = 0.1611

Pada analisis ini jumlah data yang digunakan adalah 10.000 observasi, sehingga uji Shapiro–Wilk tidak digunakan karena metode tersebut hanya direkomendasikan untuk ukuran sampel antara 3 sampai 5000. Oleh karena itu, normalitas residual dievaluasi menggunakan Histogram Residual dan Normal Q-Q Plot.

12.2.2 Histogram Residual

hist(res,
     main = "Histogram Residual",
     xlab = "Residual")

Berdasarkan Histogram Residual, terlihat bahwa distribusi residual membentuk pola yang menyerupai kurva lonceng (bell-shaped curve) yang relatif simetris di sekitar nilai nol. Hal ini menunjukkan bahwa distribusi residual cenderung mendekati distribusi normal.

12.2.3 QQ Plot

qqnorm(res, main = "QQ Plot Residual")
qqline(res, col = "red", lwd = 2)

Pada Normal Q-Q Plot, sebagian besar titik residual berada di sekitar garis diagonal. Hal ini menunjukkan bahwa distribusi residual mengikuti distribusi normal teoritis.

Kesimpulan: Residual dari model regresi berdistribusi normal, sehingga asumsi normalitas pada model regresi telah terpenuhi.

12.3 Uji Multikolinearitas

Uji multikolinearitas bertujuan untuk mengetahui apakah terdapat korelasi yang tinggi antar variabel independen dalam model regresi.

Karena kita ingin meminimalkan package tambahan, nilai VIF dihitung manual.

vif_manual <- function(model_object) {
  x <- model.matrix(model_object)[, -1, drop = FALSE]
  vif_values <- numeric(ncol(x))
  names(vif_values) <- colnames(x)
  
  for (i in seq_len(ncol(x))) {
    y_i <- x[, i]
    x_i <- x[, -i, drop = FALSE]
    aux_model <- lm(y_i ~ x_i)
    r2_i <- summary(aux_model)$r.squared
    vif_values[i] <- 1 / (1 - r2_i)
  }
  
  return(vif_values)
}

vif_manual(model)

##     pengeluaran_perkapita angka_partisipasi_sekolah 
##                  1.000037                  1.000037

Kriteria yang digunakan dalam uji multikolinearitas adalah sebagai berikut.

Jika VIF \(<\) 10, maka tidak terjadi multikolinearitas.
Jika VIF \(\geq\) 10, maka terdapat indikasi multikolinearitas

Dari hasil tersebut terlihat bahwa seluruh variabel independen memiliki nilai VIF yang sangat kecil (berkisar 1.000) dan jauh di bawah 10.

Sehingga tidak terdapat hubungan linear yang kuat antar variabel independen (tidak terjadi multikolinearitas) sehingga variabel independen dapat digunakan secara bersama-sama dalam model regresi

12.4 Uji Heteroskedastisitas

Uji heteroskedastisitas bertujuan untuk mengetahui apakah terjadi ketidaksamaan varians residual pada model regresi. Model regresi yang baik seharusnya memiliki varians residual yang konstan (homoskedastisitas).

Pada analisis ini, digunakan Breusch-Pagan Test, dengan hipotesis berikut.

\(H_0\) : Tidak terdapat heteroskedastisitas (varians residual konstan).
\(H_1\) : Terdapat heteroskedastisitas (varians residual tidak konstan).

lmtest::bptest(model)

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.23963, df = 2, p-value = 0.8871

Berdasarkan hasil output pengujian, diperoleh nilai BP = 0.23963 dengan p-value = 0.8821 lebih besar dari tingkat signifikansi \(\alpha\) = 0,05.

Dengan kriteria penolakan \(H_0\) adalah jika p-value < \(\alpha\), maka diputuskan bahwa \(H_0\) gagal ditolak.

Kesimpulan: Tidak terdapat heteroskedastisitas (varians residual konstan) pada model regresi sehingga asumsi terpenuhi.

12.4.1 Plot Residual vs Fitted

Selain menggunakan Breusch–Pagan Test, heteroskedastisitas juga dapat dievaluasi secara visual melalui plot residual terhadap fitted values. Plot ini digunakan untuk melihat apakah terdapat pola tertentu pada penyebaran residual.

plot(fit, res,
     xlab = "Fitted Values",
     ylab = "Residuals",
     main = "Residuals vs Fitted")
abline(h = 0, col = "red", lwd = 2)

Pada grafik Residuals vs Fitted, titik-titik residual terlihat menyebar secara acak di sekitar garis horizontal pada nilai nol. Selain itu, tidak terlihat pola tertentu seperti pola mengerucut (funnel) atau membentuk pola sistematis. Hal ini menunjukkan bahwa varians residual bersifat konstan (homoskedastisitas).

12.5 Uji Linearitas

Uji linearitas bertujuan untuk mengetahui apakah hubungan antara variabel independen dan variabel dependen dalam model regresi bersifat linear. Salah satu cara untuk mengevaluasi linearitas adalah dengan menggunakan plot residual terhadap fitted values.

plot(fit, res,
     xlab = "Fitted Values",
     ylab = "Residuals",
     main = "Uji Linearitas: Residuals vs Fitted")
abline(h = 0, col = "blue", lwd = 2)

Kesimpulan: Hubungan antarvariabel independen dan variabel dependen bersifat linear pada model regresi sehingga asumsi terpenuhi.

13 Model Akhir Regresi

Berdasarkan hasil analisis regresi linear berganda yang dilakukan, diperoleh model regresi akhir sebagai berikut.

summary(model)

## 
## Call:
## lm(formula = persentase_penduduk_miskin ~ pengeluaran_perkapita + 
##     angka_partisipasi_sekolah, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5112 -2.2268 -0.8384  2.2805  5.5754 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               17.4683637  4.1550859   4.204 0.000367 ***
## pengeluaran_perkapita     -0.0014190  0.0002911  -4.875 7.13e-05 ***
## angka_partisipasi_sekolah  0.2938228  0.0885091   3.320 0.003113 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.045 on 22 degrees of freedom
## Multiple R-squared:  0.6139, Adjusted R-squared:  0.5788 
## F-statistic: 17.49 on 2 and 22 DF,  p-value: 2.839e-05

\[ Y = 17.4683637 - 0.0014190X_1 + 0.2938228X_2 \]

dengan

\(Y\)	Persentase Penduduk Miskin (Variabel Dependen)
\(X_1\)	Pengeluaran Per Kapita (Variabel Independen)
\(X_2\)	Angka Partisipasi Sekolah (Variabel Independen)

14 Kesimpulan

Berdasarkan hasil analisis regresi linear berganda yang dilakukan terhadap data mengenai Persentase Penduduk Miskin, Pengeluaran Per Kapita, dan Angka Partisipasi Sekolah, diperoleh beberapa kesimpulan sebagai berikut.

Berdasarkan hasil statistik deskriptif, data menunjukkan bahwa variabel persentase penduduk miskin memiliki nilai minimum sekitar 3,42 dan maksimum 20,62 dengan rata-rata sekitar 9,48. Variabel pengeluaran per kapita memiliki nilai minimum sekitar 7.769 dan maksimum 18.527 dengan rata-rata sekitar 11.326. Sementara itu, variabel angka partisipasi sekolah memiliki nilai minimum sekitar 17,01 dan maksimum 51,85 dengan rata-rata sekitar 27,51. Hal ini menunjukkan adanya variasi tingkat kemiskinan, pengeluaran per kapita, dan partisipasi sekolah pada data yang dianalisis.
Berdasarkan hasil analisis korelasi, diperoleh bahwa pengeluaran per kapita memiliki hubungan negatif yang cukup kuat dengan persentase penduduk miskin (r = -0,6485). Hal ini menunjukkan bahwa semakin tinggi pengeluaran per kapita, maka persentase penduduk miskin cenderung menurun. Sementara itu, angka partisipasi sekolah memiliki hubungan positif dengan persentase penduduk miskin (r = 0,4437), namun dengan kekuatan hubungan sedang.
Berdasarkan hasil uji simultan (Uji F), diperoleh nilai p-value sebesar 2,839 × 10⁻⁵ yang lebih kecil dari tingkat signifikansi α = 0,05. Hal ini menunjukkan bahwa variabel pengeluaran per kapita dan angka partisipasi sekolah secara bersama-sama berpengaruh signifikan terhadap persentase penduduk miskin.
Berdasarkan hasil uji parsial (Uji t), diperoleh bahwa:
- Variabel pengeluaran per kapita memiliki nilai p-value sebesar 7,13 × 10⁻⁵ (< 0,05), sehingga berpengaruh signifikan terhadap persentase penduduk miskin.
- Variabel angka partisipasi sekolah memiliki nilai p-value sebesar 0,003113 (< 0,05), sehingga juga berpengaruh signifikan terhadap persentase penduduk miskin.
Nilai koefisien determinasi (R²) sebesar 0,6139 menunjukkan bahwa sekitar 61,39% variasi persentase penduduk miskin dapat dijelaskan oleh variabel pengeluaran per kapita dan angka partisipasi sekolah, sedangkan 38,61% sisanya dipengaruhi oleh faktor lain di luar model analisis ini.
Berdasarkan hasil estimasi model regresi, diperoleh model regresi akhir sebagai berikut: