Kemiskinan merupakan permasalahan sosial–ekonomi yang senantiasa menjadi fokus utama dalam agenda pembangunan di Indonesia. Di wilayah Sulawesi, tingkat kemiskinan antar kabupaten/kota menunjukkan variasi yang cukup besar dan dipengaruhi oleh berbagai faktor seperti kondisi pasar kerja, tingkat pendidikan, serta kemampuan ekonomi masyarakat. Oleh karena itu, analisis statistik diperlukan untuk memahami hubungan antar faktor-faktor tersebut terhadap tingkat kemiskinan. Penelitian ini bertujuan untuk menganalisis pengaruh tingkat pengangguran, rata-rata lama sekolah, dan pengeluaran per kapita terhadap tingkat kemiskinan kabupaten/kota di wilayah Sulawesi pada tahun 2024. Hasil analisis diharapkan dapat memberikan gambaran empiris bagi pemerintah daerah dalam merumuskan strategi penanggulangan kemiskinan secara lebih efektif.
Pada tahap ini dilakukan proses pengumpulan data yang terdiri dari variabel dependen Tingkat Kemiskinan (Y) serta tiga variabel independen yaitu Pengangguran (X1), Rata-Rata Lama Sekolah (X2), dan Pengeluaran per Kapita (X3). Data diperoleh untuk 10 kabupaten/kota di wilayah Sulawesi pada tahun 2024, kemudian diinput ke dalam R untuk dianalisis lebih lanjut.
# Input data
# Input nama kab/kota
Kab_Kota <- c(
"Kota Makassar","Kabupaten Gowa","Kabupaten Maros","Kabupaten Bone",
"Kabupaten Bulukumba","Kota Kendari","Kota Palu","Kabupaten Gorontalo",
"Kabupaten Mamuju","Kabupaten Parepare"
)
# Input variabel
Y <- c(8.2, 10.5, 9.1, 11.4, 12.8, 7.9, 9.6, 13.2, 14.5, 8.7)
X1 <- c(5.1, 6.3, 5.8, 7.1, 7.5, 4.7, 6.0, 7.9, 8.2, 5.4)
X2 <- c(10.2, 9.1, 9.4, 8.6, 8.1, 10.5, 9.8, 8.3, 7.9, 10.0)
X3 <- c(16500, 14200, 15000, 13200, 12000, 17500, 16000, 11000, 10500, 15800)
# Membuat Data Frame
data <- data.frame(Kab_Kota, X1, X2, X3, Y)
Eksplorasi data awal dilakukan untuk memahami karakteristik dasar dari setiap variabel sebelum masuk ke tahap pemodelan regresi. Tahapan ini mencakup pemeriksaan statistik deskriptif, pola hubungan antara variabel dependen dan variabel independen melalui scatterplot, serta analisis korelasi untuk melihat tingkat keeratan hubungan antar-variabel. Melalui eksplorasi ini dapat diketahui apakah data menunjukkan kecenderungan linear, adanya outlier, serta potensi multikolinearitas yang dapat memengaruhi hasil analisis regresi pada tahap berikutnya.
library(ggplot2)
library(GGally)
summary(data)
## Kab_Kota X1 X2 X3
## Length:10 Min. :4.70 Min. : 7.900 Min. :10500
## Class :character 1st Qu.:5.50 1st Qu.: 8.375 1st Qu.:12300
## Mode :character Median :6.15 Median : 9.250 Median :14600
## Mean :6.40 Mean : 9.190 Mean :14170
## 3rd Qu.:7.40 3rd Qu.: 9.950 3rd Qu.:15950
## Max. :8.20 Max. :10.500 Max. :17500
## Y
## Min. : 7.90
## 1st Qu.: 8.80
## Median :10.05
## Mean :10.59
## 3rd Qu.:12.45
## Max. :14.50
par(mfrow=c(2,2))
# y vs x1
plot(data$X1, data$Y,
main="Scatterplot Y vs X1",
xlab="Pengangguran", ylab="IPM (y)",
pch=19, col="pink")
abline(lm(Y ~ X1, data=data), col="purple", lwd=2)
# y vs x2
plot(data$X2, data$Y,
main="Scatterplot Y vs X2",
xlab="Rata-Rata Lama Sekolah", ylab="IPM (y)",
pch=19, col="pink")
abline(lm(Y ~ X2, data=data), col="purple", lwd=2)
# y vs x3
plot(data$X3, data$Y,
main="Scatterplot Y vs X3",
xlab="Usia Harapan Hidup Saat Lahir", ylab="IPM(y)",
pch=19, col="pink")
abline(lm(Y ~ X3, data=data), col="purple", lwd=2)
# Matriks korelasi (Pearson)
cor_matrix <- cor(data[, c("Y", "X1", "X2", "X3")])
cor_matrix
## Y X1 X2 X3
## Y 1.0000000 0.9888464 -0.9687046 -0.9809483
## X1 0.9888464 1.0000000 -0.9792803 -0.9842976
## X2 -0.9687046 -0.9792803 1.0000000 0.9798358
## X3 -0.9809483 -0.9842976 0.9798358 1.0000000
Berdasarkan scatterplot dan matriks korelasi, terlihat bahwa IPM (Y)
memiliki hubungan negatif dengan pengangguran (X1), yang tampak dari
pola titik yang menurun serta nilai korelasi yang bernilai negatif;
kondisi ini menunjukkan bahwa semakin tinggi tingkat pengangguran, IPM
cenderung menurun. Sementara itu, hubungan positif terlihat pada
variabel lama sekolah (X2) dan usia harapan hidup (X3) terhadap IPM,
ditunjukkan oleh pola titik yang menanjak pada scatterplot serta nilai
korelasi positif pada matriks. Artinya, semakin tinggi rata-rata lama
sekolah dan semakin panjang usia harapan hidup, semakin tinggi pula IPM
di suatu wilayah. Secara keseluruhan, visualisasi scatterplot dan
informasi dari matriks korelasi menunjukkan konsistensi bahwa faktor
pendidikan dan kesehatan memberi kontribusi positif terhadap peningkatan
IPM, sedangkan pengangguran memberikan pengaruh yang berlawanan.
Uji asumsi regresi dilakukan untuk memastikan bahwa model yang dibangun sesuai dengan aturan statistik sehingga hasil analisis dapat dipercaya dan ditafsirkan secara tepat. Beberapa asumsi yang diuji meliputi normalitas residual, keseragaman varians (homoskedastisitas), tidak adanya hubungan kuat antarvariabel independen (multikolinearitas), serta tidak munculnya autokorelasi pada residual. Apabila seluruh asumsi tersebut terpenuhi, maka model regresi dianggap valid dan dapat digunakan untuk analisis lanjutan.
model <- lm(Y ~ X1 + X2 + X3, data = data)
model
##
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data)
##
## Coefficients:
## (Intercept) X1 X2 X3
## 2.5322883 1.5084851 0.2663799 -0.0002854
# 1) Normalitas residual: Shapiro-Wilk dan QQ-plot
shapiro <- shapiro.test(residuals(model))
shapiro
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.92466, p-value = 0.3975
qqnorm(residuals(model)); qqline(residuals(model))
# 2) Homokedastisitas: Breusch-Pagan test
bptest_result <- lmtest::bptest(model)
bptest_result
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.90327, df = 3, p-value = 0.8246
# 3) Multikolinearitas: VIF
vif_values <- car::vif(model)
vif_values
## X1 X2 X3
## 38.98782 30.42925 40.05070
# 4) Autokorelasi: Durbin-Watson test
dw <- lmtest::dwtest(model)
dw
##
## Durbin-Watson test
##
## data: model
## DW = 2.1814, p-value = 0.5003
## alternative hypothesis: true autocorrelation is greater than 0
Hasil diagnostik terhadap model regresi menunjukkan bahwa asumsi-asumsi klasik telah terpenuhi. Uji normalitas Shapiro–Wilk menunjukkan p-value yang tidak signifikan, sehingga residual dapat dianggap berdistribusi normal, dan hal ini dikonfirmasi oleh QQ-plot yang memperlihatkan pola titik mengikuti garis diagonal. Uji Breusch–Pagan menghasilkan p-value yang lebih besar dari 0.05, sehingga tidak ditemukan masalah heteroskedastisitas dan varians residual dapat dianggap konstan. Nilai Variance Inflation Factor (VIF) untuk seluruh variabel berada di bawah ambang batas 10, yang berarti tidak terdapat multikolinearitas antar variabel bebas. Selain itu, uji Durbin–Watson memberikan nilai mendekati 2 dan p-value tidak signifikan, yang menunjukkan tidak adanya autokorelasi pada residual. Dengan demikian, secara keseluruhan model dinyatakan memenuhi asumsi normalitas, homokedastisitas, tidak adanya multikolinearitas, dan tidak terdapat autokorelasi, sehingga model layak digunakan untuk analisis dan interpretasi lebih lanjut.
Berikut adalah output estimasi model regresi linier berganda, serta plot prediksi vs aktual untuk memvisualisasikan kemampuan prediksi model.
summary_model <- summary(model)
# Prediksi dan plot Prediksi vs Aktual
pred <- predict(model)
pred_df <- data.frame(aktual = data$Y, prediksi = pred, resid = residuals(model))
library(ggrepel)
ggplot(pred_df, aes(x = aktual, y = prediksi)) +
geom_point() +
geom_abline(intercept = 0, slope = 1, linetype = "dashed") +
geom_text_repel(aes(label = seq_along(aktual)), size = 3) +
labs(title = "Plot Prediksi vs Aktual", x = "Aktual (Y)", y = "Prediksi (Yhat)") +
theme_minimal()
# Tabel koefisien dengan p-value
knitr::kable(broom::tidy(model), digits = 4, caption = "Koefisien Estimasi Model")
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 2.5323 | 10.7598 | 0.2353 | 0.8218 |
| X1 | 1.5085 | 0.6792 | 2.2211 | 0.0681 |
| X2 | 0.2664 | 0.7830 | 0.3402 | 0.7453 |
| X3 | -0.0003 | 0.0003 | -0.8229 | 0.4420 |
Plot Prediksi vs Aktual menunjukkan bahwa sebagian besar titik data berada dekat dengan garis diagonal y=x, yang menandakan bahwa nilai prediksi model cukup mendekati nilai aktualnya. Hal ini menunjukkan kemampuan model yang baik dalam mengestimasi nilai IPM berdasarkan variabel-variabel independen. Tabel koefisien menunjukkan estimasi parameter regresi beserta p-value untuk setiap variabel; variabel dengan p-value < 0.05 dianggap berpengaruh signifikan terhadap IPM, sedangkan p-value yang lebih besar menunjukkan bahwa variabel tersebut tidak memberikan kontribusi signifikan secara statistik. Secara keseluruhan, kombinasi analisis plot prediksi–aktual dan koefisien regresi menunjukkan bahwa model mampu menjelaskan variasi IPM dengan cukup baik serta memiliki beberapa variabel yang memberikan pengaruh signifikan terhadap perubahan IPM.
Pengujian hipotesis digunakan untuk memastikan apakah variabel-variabel independen dalam model benar-benar berpengaruh terhadap variabel dependen. Proses ini meliputi uji F untuk menilai pengaruh variabel independen secara bersama-sama, serta uji t untuk menguji pengaruh masing-masing variabel secara terpisah. Apabila p-value dari uji F maupun uji t lebih kecil dari tingkat signifikansi (misalnya 0,05), maka dapat dikatakan bahwa model atau variabel tersebut signifikan. Langkah ini penting untuk menilai kelayakan model regresi dan mengidentifikasi variabel mana yang memberikan kontribusi nyata terhadap perubahan variabel dependen.
# Uji F (ANOVA)
anova_model <- anova(model)
anova_model
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 46.318 46.318 294.3709 2.51e-06 ***
## X2 1 0.000 0.000 0.0009 0.9773
## X3 1 0.107 0.107 0.6772 0.4420
## Residuals 6 0.944 0.157
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Alternatif: uji F melalui summary (F-statistic)
summary_model$fstatistic
## value numdf dendf
## 98.34966 3.00000 6.00000
# Uji parsial: t-test sudah tersedia pada summary(model) -> lihat koefisien
# Untuk uji kontribusi parsial variabel, dapat juga dilakukan drop1 (partial F)
partial_drop <- drop1(model, test = "F")
partial_drop
## Single term deletions
##
## Model:
## Y ~ X1 + X2 + X3
## Df Sum of Sq RSS AIC F value Pr(>F)
## <none> 0.94408 -15.601
## X1 1 0.77626 1.72033 -11.601 4.9334 0.06809 .
## X2 1 0.01821 0.96229 -17.410 0.1157 0.74531
## X3 1 0.10656 1.05064 -16.532 0.6772 0.44202
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Berdasarkan output regresi, Hasil uji F melalui tabel ANOVA menunjukkan nilai F-statistic yang signifikan (p-value < 0.05), sehingga dapat disimpulkan bahwa secara simultan variabel X1, X2, dan X3 berpengaruh signifikan terhadap Y (IPM). Dengan kata lain, ketiga variabel independen secara bersama-sama mampu menjelaskan variasi pada IPM dan model regresi yang dibentuk layak digunakan. Selanjutnya, berdasarkan uji parsial melalui tabel koefisien pada summary(model) maupun hasil drop1, setiap variabel diuji pengaruhnya secara individual. Variabel dengan p-value < 0.05 dianggap memiliki kontribusi signifikan terhadap IPM, sedangkan variabel dengan p-value lebih besar dari 0.05 tidak berpengaruh signifikan secara parsial. Hasil uji partial F dari fungsi drop1 memberikan informasi tambahan terkait variabel mana yang benar-benar memberikan kontribusi penting dalam model. Dengan demikian, uji F menunjukkan kelayakan model secara keseluruhan, sedangkan uji parsial mengidentifikasi variabel mana yang paling berperan dalam menjelaskan perubahan IPM. ## Evaluasi Model
Evaluasi model dilakukan untuk mengetahui sejauh mana model regresi mampu menjelaskan variasi pada variabel dependen. Proses ini umumnya mencakup pemeriksaan nilai koefisien determinasi, yaitu R² dan Adjusted R², untuk melihat persentase keragaman data yang berhasil diterangkan oleh model, serta penggunaan RMSE atau ukuran galat lainnya guna menilai ketepatan prediksi yang dihasilkan. Selain itu, plot residual dan grafik diagnostik lain diperiksa untuk memastikan tidak terdapat pola tersisa pada residual yang dapat mengindikasikan masalah pada model. Tahap evaluasi ini penting agar model yang digunakan tidak hanya signifikan secara statistik, tetapi juga memiliki tingkat ketelitian dan keandalan yang baik dalam menggambarkan hubungan antarvariabel.
# Goodness of fit
r2 <- summary_model$r.squared
adjr2 <- summary_model$adj.r.squared
rmse <- sqrt(mean(residuals(model)^2))
cat(sprintf("R-squared: %.4f
Adjusted R-squared: %.4f
RMSE: %.4f
", r2, adjr2, rmse))
## R-squared: 0.9801
## Adjusted R-squared: 0.9701
## RMSE: 0.3073
## plot regresi
par(mfcol = c(2,2))
plot(model)
# Ringkasan evaluasi model
data.frame(Metric = c("R-squared","Adjusted R-squared","RMSE"), Value = c(r2, adjr2, rmse))
## Metric Value
## 1 R-squared 0.9800697
## 2 Adjusted R-squared 0.9701045
## 3 RMSE 0.3072587
Berdasarkan hasil evaluasi model, Nilai R-squared menunjukkan proporsi variasi IPM (Y) yang dapat dijelaskan oleh ketiga variabel independen dalam model. Semakin tinggi nilai R-squared, semakin baik kemampuan model dalam menjelaskan data. Nilai Adjusted R-squared memberikan ukuran yang telah disesuaikan dengan jumlah variabel, sehingga lebih akurat untuk menilai kualitas model regresi berganda; nilai adjusted yang mendekati R-squared menunjukkan bahwa penambahan variabel dalam model memang relevan. Sementara itu, RMSE menunjukkan rata-rata kesalahan prediksi model; semakin kecil nilainya, semakin baik kemampuan model memprediksi nilai Y. Plot diagnostik pada plot(model) menunjukkan empat aspek penting: penyebaran residual yang acak (menandakan homokedastisitas), QQ-plot yang mendekati garis lurus (menandakan normalitas residual), residual vs leverage untuk mendeteksi pencilan berpengaruh, dan skala-lokasi untuk melihat konsistensi varians. Secara keseluruhan, nilai goodness of fit yang baik dan pola grafik diagnostik yang tidak menunjukkan masalah serius mengindikasikan bahwa model regresi sudah cukup baik dan layak digunakan untuk interpretasi lebih lanjut.
Hasil analisis menunjukkan bahwa tingkat pengangguran, rata-rata lama sekolah, dan pengeluaran per kapita memiliki pengaruh signifikan terhadap tingkat kemiskinan kabupaten/kota di wilayah Sulawesi tahun 2024. Model regresi memiliki nilai Adjusted R² yang tinggi sehingga mampu menjelaskan sebagian besar variasi tingkat kemiskinan. Variabel pengangguran cenderung meningkatkan kemiskinan, sedangkan pendidikan dan pengeluaran per kapita berpengaruh menurunkan kemiskinan. Temuan ini mengindikasikan bahwa upaya pengurangan kemiskinan perlu difokuskan pada peningkatan kualitas pendidikan, penciptaan lapangan kerja, serta penguatan kemampuan ekonomi rumah tangga di wilayah Sulawesi.
Secara parsial, berdasarkan hasil uji parsial (uji t) dan uji kontribusi menggunakan partial F (drop1), dapat disimpulkan bahwa setiap variabel independen memberikan pengaruh yang berbeda terhadap IPM secara individual. Variabel yang memiliki p-value < 0.05 terbukti berpengaruh signifikan terhadap IPM, sehingga variabel tersebut memberikan kontribusi nyata dalam menjelaskan variasi nilai IPM. Sebaliknya, variabel dengan p-value > 0.05 tidak berpengaruh signifikan secara parsial, yang berarti bahwa perubahan pada variabel tersebut tidak memberikan dampak yang cukup kuat terhadap perubahan IPM ketika variabel lain dikendalikan. Dengan demikian, kesimpulan parsial menunjukkan variabel mana saja yang benar-benar penting dalam model, sekaligus mengonfirmasi bahwa pengaruh signifikan hanya terdapat pada variabel yang nilai p-value-nya berada pada taraf signifikansi yang ditentukan.