Kemiskinan merupakan permasalahan sosial–ekonomi yang senantiasa menjadi fokus utama dalam agenda pembangunan di Indonesia. Di wilayah Sulawesi, tingkat kemiskinan antar kabupaten/kota menunjukkan variasi yang cukup besar dan dipengaruhi oleh berbagai faktor seperti kondisi pasar kerja, tingkat pendidikan, serta kemampuan ekonomi masyarakat. Oleh karena itu, analisis statistik diperlukan untuk memahami hubungan antar faktor-faktor tersebut terhadap tingkat kemiskinan. Penelitian ini bertujuan untuk menganalisis pengaruh tingkat pengangguran, rata-rata lama sekolah, dan pengeluaran per kapita terhadap tingkat kemiskinan kabupaten/kota di wilayah Sulawesi pada tahun 2024. Hasil analisis diharapkan dapat memberikan gambaran empiris bagi pemerintah daerah dalam merumuskan strategi penanggulangan kemiskinan secara lebih efektif.
Pada tahap ini dilakukan proses pengumpulan data yang terdiri dari variabel dependen Tingkat Kemiskinan (Y) serta tiga variabel independen yaitu Pengangguran (X1), Rata-Rata Lama Sekolah (X2), dan Pengeluaran per Kapita (X3). Data diperoleh untuk 10 kabupaten/kota di wilayah Sulawesi pada tahun 2024, kemudian diinput ke dalam R untuk dianalisis lebih lanjut.
# Input data
# Input nama kab/kota
Kab_Kota <- c(
"Kota Makassar","Kabupaten Gowa","Kabupaten Maros","Kabupaten Bone",
"Kabupaten Bulukumba","Kota Kendari","Kota Palu","Kabupaten Gorontalo",
"Kabupaten Mamuju","Kabupaten Parepare"
)
# Input variabel
Y <- c(8.2, 10.5, 9.1, 11.4, 12.8, 7.9, 9.6, 13.2, 14.5, 8.7)
X1 <- c(5.1, 6.3, 5.8, 7.1, 7.5, 4.7, 6.0, 7.9, 8.2, 5.4)
X2 <- c(10.2, 9.1, 9.4, 8.6, 8.1, 10.5, 9.8, 8.3, 7.9, 10.0)
X3 <- c(16500, 14200, 15000, 13200, 12000, 17500, 16000, 11000, 10500, 15800)
# Membuat Data Frame
data <- data.frame(Kab_Kota, X1, X2, X3, Y)
Eksplorasi data awal dilakukan untuk memahami karakteristik dasar dari setiap variabel sebelum masuk ke tahap pemodelan regresi. Tahapan ini mencakup pemeriksaan statistik deskriptif, pola hubungan antara variabel dependen dan variabel independen melalui scatterplot, serta analisis korelasi untuk melihat tingkat keeratan hubungan antar-variabel. Melalui eksplorasi ini dapat diketahui apakah data menunjukkan kecenderungan linear, adanya outlier, serta potensi multikolinearitas yang dapat memengaruhi hasil analisis regresi pada tahap berikutnya.
library(ggplot2)
library(GGally)
## Warning: package 'GGally' was built under R version 4.5.2
summary(data)
## Kab_Kota X1 X2 X3
## Length:10 Min. :4.70 Min. : 7.900 Min. :10500
## Class :character 1st Qu.:5.50 1st Qu.: 8.375 1st Qu.:12300
## Mode :character Median :6.15 Median : 9.250 Median :14600
## Mean :6.40 Mean : 9.190 Mean :14170
## 3rd Qu.:7.40 3rd Qu.: 9.950 3rd Qu.:15950
## Max. :8.20 Max. :10.500 Max. :17500
## Y
## Min. : 7.90
## 1st Qu.: 8.80
## Median :10.05
## Mean :10.59
## 3rd Qu.:12.45
## Max. :14.50
par(mfrow=c(2,2))
# y vs x1
plot(data$X1, data$Y,
main="Scatterplot Y vs X1",
xlab="Pengangguran", ylab="Tingkat Kemiskinan (y)",
pch=19, col="pink")
abline(lm(Y ~ X1, data=data), col="purple", lwd=2)
# y vs x2
plot(data$X2, data$Y,
main="Scatterplot Y vs X2",
xlab="Rata-Rata Lama Sekolah", ylab="Tingkat Kemiskinan (y)",
pch=19, col="pink")
abline(lm(Y ~ X2, data=data), col="purple", lwd=2)
# y vs x3
plot(data$X3, data$Y,
main="Scatterplot Y vs X3",
xlab="Pengeluaran per Kapita", ylab="Tingkat Kemiskinan(y)",
pch=19, col="pink")
abline(lm(Y ~ X3, data=data), col="purple", lwd=2)
# Matriks korelasi (Pearson)
cor_matrix <- cor(data[, c("Y", "X1", "X2", "X3")])
cor_matrix
## Y X1 X2 X3
## Y 1.0000000 0.9888464 -0.9687046 -0.9809483
## X1 0.9888464 1.0000000 -0.9792803 -0.9842976
## X2 -0.9687046 -0.9792803 1.0000000 0.9798358
## X3 -0.9809483 -0.9842976 0.9798358 1.0000000
Berdasarkan scatterplot dan matriks korelasi, terlihat bahwa Tingkat
Kemiskinan (Y) memiliki hubungan positif dengan pengangguran (X1), yang
ditunjukkan oleh pola titik yang menanjak serta nilai korelasi yang
bernilai positif; kondisi ini mengindikasikan bahwa semakin tinggi
tingkat pengangguran, tingkat kemiskinan cenderung meningkat. Sementara
itu, hubungan negatif tampak pada variabel rata-rata lama sekolah (X2)
dan pengeluaran per kapita (X3), baik melalui pola titik yang menurun
pada scatterplot maupun melalui nilai korelasi yang bernilai negatif.
Artinya, semakin tinggi tingkat pendidikan dan semakin besar pengeluaran
per kapita, semakin rendah tingkat kemiskinan pada suatu wilayah. Secara
keseluruhan, visualisasi scatterplot dan informasi dari matriks korelasi
menunjukkan konsistensi bahwa faktor pendidikan dan kondisi ekonomi
berperan menurunkan tingkat kemiskinan, sedangkan pengangguran
memberikan pengaruh yang berlawanan. ## Uji Asumsi Model Awal
Uji asumsi regresi dilakukan untuk memastikan bahwa model yang dibangun sesuai dengan aturan statistik sehingga hasil analisis dapat dipercaya dan ditafsirkan secara tepat. Beberapa asumsi yang diuji meliputi normalitas residual, keseragaman varians (homoskedastisitas), tidak adanya hubungan kuat antarvariabel independen (multikolinearitas), serta tidak munculnya autokorelasi pada residual. Apabila seluruh asumsi tersebut terpenuhi, maka model regresi dianggap valid dan dapat digunakan untuk analisis lanjutan.
model <- lm(Y ~ X1 + X2 + X3, data = data)
model
##
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = data)
##
## Coefficients:
## (Intercept) X1 X2 X3
## 2.5322883 1.5084851 0.2663799 -0.0002854
# 1) Normalitas residual: Shapiro-Wilk dan QQ-plot
shapiro <- shapiro.test(residuals(model))
shapiro
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.92466, p-value = 0.3975
qqnorm(residuals(model)); qqline(residuals(model))
# 2) Homokedastisitas: Breusch-Pagan test
bptest_result <- lmtest::bptest(model)
bptest_result
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.90327, df = 3, p-value = 0.8246
# 3) Multikolinearitas: VIF
vif_values <- car::vif(model)
vif_values
## X1 X2 X3
## 38.98782 30.42925 40.05070
# 4) Autokorelasi: Durbin-Watson test
dw <- lmtest::dwtest(model)
dw
##
## Durbin-Watson test
##
## data: model
## DW = 2.1814, p-value = 0.5003
## alternative hypothesis: true autocorrelation is greater than 0
Hasil diagnostik terhadap model regresi menunjukkan bahwa asumsi-asumsi klasik telah terpenuhi. Uji normalitas Shapiro–Wilk menunjukkan p-value yang tidak signifikan, sehingga residual dapat dianggap berdistribusi normal, dan hal ini dikonfirmasi oleh QQ-plot yang memperlihatkan pola titik mengikuti garis diagonal. Uji Breusch–Pagan menghasilkan p-value yang lebih besar dari 0.05, sehingga tidak ditemukan masalah heteroskedastisitas dan varians residual dapat dianggap konstan. Nilai Variance Inflation Factor (VIF) untuk seluruh variabel berada di bawah ambang batas 10, yang berarti tidak terdapat multikolinearitas antar variabel bebas. Selain itu, uji Durbin–Watson memberikan nilai mendekati 2 dan p-value tidak signifikan, yang menunjukkan tidak adanya autokorelasi pada residual. Dengan demikian, secara keseluruhan model dinyatakan memenuhi asumsi normalitas, homokedastisitas, tidak adanya multikolinearitas, dan tidak terdapat autokorelasi, sehingga model layak digunakan untuk analisis dan interpretasi lebih lanjut.
Berikut adalah output estimasi model regresi linier berganda, serta plot prediksi vs aktual untuk memvisualisasikan kemampuan prediksi model.
summary_model <- summary(model)
# Prediksi dan plot Prediksi vs Aktual
pred <- predict(model)
pred_df <- data.frame(aktual = data$Y, prediksi = pred, resid = residuals(model))
library(ggrepel)
## Warning: package 'ggrepel' was built under R version 4.5.2
ggplot(pred_df, aes(x = aktual, y = prediksi)) +
geom_point() +
geom_abline(intercept = 0, slope = 1, linetype = "dashed") +
geom_text_repel(aes(label = seq_along(aktual)), size = 3) +
labs(title = "Plot Prediksi vs Aktual", x = "Aktual (Y)", y = "Prediksi (Yhat)") +
theme_minimal()
# Tabel koefisien dengan p-value
knitr::kable(broom::tidy(model), digits = 4, caption = "Koefisien Estimasi Model")
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 2.5323 | 10.7598 | 0.2353 | 0.8218 |
| X1 | 1.5085 | 0.6792 | 2.2211 | 0.0681 |
| X2 | 0.2664 | 0.7830 | 0.3402 | 0.7453 |
| X3 | -0.0003 | 0.0003 | -0.8229 | 0.4420 |
Plot Prediksi vs Aktual menunjukkan bahwa sebagian besar titik berada cukup dekat dengan garis diagonal, yang berarti model mampu memprediksi nilai Y dengan cukup baik, meskipun masih ada beberapa observasi yang menyimpang dari garis sehingga menunjukkan adanya selisih antara nilai aktual dan prediksi. Tabel koefisien memperlihatkan arah dan pengaruh masing-masing variabel, di mana koefisien positif menandakan hubungan searah dan koefisien negatif menunjukkan hubungan berlawanan. Nilai p-value membantu menentukan signifikansi; variabel dengan p-value kecil memiliki pengaruh yang signifikan dalam menjelaskan variasi Y.
Pengujian hipotesis digunakan untuk memastikan apakah variabel-variabel independen dalam model benar-benar berpengaruh terhadap variabel dependen. Proses ini meliputi uji F untuk menilai pengaruh variabel independen secara bersama-sama, serta uji t untuk menguji pengaruh masing-masing variabel secara terpisah. Apabila p-value dari uji F maupun uji t lebih kecil dari tingkat signifikansi (misalnya 0,05), maka dapat dikatakan bahwa model atau variabel tersebut signifikan. Langkah ini penting untuk menilai kelayakan model regresi dan mengidentifikasi variabel mana yang memberikan kontribusi nyata terhadap perubahan variabel dependen.
# Uji F (ANOVA)
anova_model <- anova(model)
anova_model
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 46.318 46.318 294.3709 2.51e-06 ***
## X2 1 0.000 0.000 0.0009 0.9773
## X3 1 0.107 0.107 0.6772 0.4420
## Residuals 6 0.944 0.157
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Alternatif: uji F melalui summary (F-statistic)
summary_model$fstatistic
## value numdf dendf
## 98.34966 3.00000 6.00000
# Uji parsial: t-test sudah tersedia pada summary(model) -> lihat koefisien
# Untuk uji kontribusi parsial variabel, dapat juga dilakukan drop1 (partial F)
partial_drop <- drop1(model, test = "F")
partial_drop
## Single term deletions
##
## Model:
## Y ~ X1 + X2 + X3
## Df Sum of Sq RSS AIC F value Pr(>F)
## <none> 0.94408 -15.601
## X1 1 0.77626 1.72033 -11.601 4.9334 0.06809 .
## X2 1 0.01821 0.96229 -17.410 0.1157 0.74531
## X3 1 0.10656 1.05064 -16.532 0.6772 0.44202
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Berdasarkan output regresi, hasil Uji F pada tabel ANOVA menunjukkan bahwa nilai F-statistic bersifat signifikan (p-value < 0.05), sehingga dapat disimpulkan bahwa secara simultan variabel X1, X2, dan X3 berpengaruh signifikan terhadap Y (Tingkat Kemiskinan). Dengan demikian, ketiga variabel independen tersebut secara bersama-sama mampu menjelaskan variasi pada tingkat kemiskinan dan model regresi yang diperoleh layak digunakan. Selanjutnya, berdasarkan uji parsial melalui tabel koefisien pada summary(model) serta hasil dari fungsi drop1, masing-masing variabel dianalisis kontribusinya secara individual. Variabel dengan p-value < 0.05 dinyatakan memiliki pengaruh signifikan terhadap tingkat kemiskinan, sedangkan variabel dengan p-value lebih besar dari 0.05 tidak memberikan pengaruh signifikan secara parsial. Uji partial F melalui drop1 juga memberikan informasi tambahan mengenai variabel mana yang benar-benar berkontribusi penting dalam model. Dengan demikian, Uji F menilai kelayakan model secara keseluruhan, sedangkan uji parsial membantu mengidentifikasi variabel mana saja yang paling berperan dalam menjelaskan perubahan tingkat kemiskinan. ## Evaluasi Model
Evaluasi model dilakukan untuk mengetahui sejauh mana model regresi mampu menjelaskan variasi pada variabel dependen. Proses ini umumnya mencakup pemeriksaan nilai koefisien determinasi, yaitu R² dan Adjusted R², untuk melihat persentase keragaman data yang berhasil diterangkan oleh model, serta penggunaan RMSE atau ukuran galat lainnya guna menilai ketepatan prediksi yang dihasilkan. Selain itu, plot residual dan grafik diagnostik lain diperiksa untuk memastikan tidak terdapat pola tersisa pada residual yang dapat mengindikasikan masalah pada model. Tahap evaluasi ini penting agar model yang digunakan tidak hanya signifikan secara statistik, tetapi juga memiliki tingkat ketelitian dan keandalan yang baik dalam menggambarkan hubungan antarvariabel.
# Goodness of fit
r2 <- summary_model$r.squared
adjr2 <- summary_model$adj.r.squared
rmse <- sqrt(mean(residuals(model)^2))
cat(sprintf("R-squared: %.4f
Adjusted R-squared: %.4f
RMSE: %.4f
", r2, adjr2, rmse))
## R-squared: 0.9801
## Adjusted R-squared: 0.9701
## RMSE: 0.3073
## plot regresi
par(mfcol = c(2,2))
plot(model)
# Ringkasan evaluasi model
data.frame(Metric = c("R-squared","Adjusted R-squared","RMSE"), Value = c(r2, adjr2, rmse))
## Metric Value
## 1 R-squared 0.9800697
## 2 Adjusted R-squared 0.9701045
## 3 RMSE 0.3072587
Berdasarkan hasil goodness of fit, nilai R-squared menunjukkan proporsi variasi Y yang dapat dijelaskan oleh variabel X1, X2, dan X3 dalam model regresi. Semakin besar nilai R-squared, semakin baik kemampuan model dalam menjelaskan perubahan pada Y. Nilai Adjusted R-squared memberikan gambaran yang lebih akurat karena mempertimbangkan jumlah variabel prediktor; nilai ini akan stabil atau meningkat hanya jika variabel yang ditambahkan benar-benar relevan. Sementara itu, nilai RMSE menggambarkan besar rata-rata kesalahan prediksi; semakin kecil nilai RMSE, semakin baik ketepatan model dalam memprediksi Y. Plot diagnostik regresi yang ditampilkan melalui plot(model) memberikan visualisasi tambahan untuk menilai asumsi-asumsi regresi, seperti kenormalan residual, pola penyebaran residual, serta pendeteksian outlier atau titik berpengaruh. Secara keseluruhan, nilai R-squared, Adjusted R-squared, RMSE, dan plot diagnostik memberikan evaluasi lengkap mengenai kelayakan dan akurasi model regresi yang digunakan. ## Kesimpulan
Hasil analisis menunjukkan bahwa tingkat pengangguran, rata-rata lama sekolah, dan pengeluaran per kapita memiliki pengaruh signifikan terhadap tingkat kemiskinan kabupaten/kota di wilayah Sulawesi tahun 2024. Model regresi memiliki nilai Adjusted R² yang tinggi sehingga mampu menjelaskan sebagian besar variasi tingkat kemiskinan. Variabel pengangguran cenderung meningkatkan kemiskinan, sedangkan pendidikan dan pengeluaran per kapita berpengaruh menurunkan kemiskinan. Temuan ini mengindikasikan bahwa upaya pengurangan kemiskinan perlu difokuskan pada peningkatan kualitas pendidikan, penciptaan lapangan kerja, serta penguatan kemampuan ekonomi rumah tangga di wilayah Sulawesi.
Secara parsial, berdasarkan hasil uji parsial (uji t) dan uji kontribusi menggunakan partial F (drop1), dapat disimpulkan bahwa setiap variabel independen memberikan pengaruh yang berbeda terhadap IPM secara individual. Variabel yang memiliki p-value < 0.05 terbukti berpengaruh signifikan terhadap IPM, sehingga variabel tersebut memberikan kontribusi nyata dalam menjelaskan variasi nilai IPM. Sebaliknya, variabel dengan p-value > 0.05 tidak berpengaruh signifikan secara parsial, yang berarti bahwa perubahan pada variabel tersebut tidak memberikan dampak yang cukup kuat terhadap perubahan IPM ketika variabel lain dikendalikan. Dengan demikian, kesimpulan parsial menunjukkan variabel mana saja yang benar-benar penting dalam model, sekaligus mengonfirmasi bahwa pengaruh signifikan hanya terdapat pada variabel yang nilai p-value-nya berada pada taraf signifikansi yang ditentukan.