Korelasi dan Regresi Linier
Case
Seorang peneliti ingin mengetahui faktor yang mempengaruhi gini rasio (ketimpangan pendapatan) di 34 provinsi di Indonesia pada tahun 2022 (data berasal dari BPS). Terdapat 5 variabel independen yaitu IPM, tingkat Kemiskinan, tingkat Pengangguran, Penanaman Modal Luar Negeri (PMLN), dan Penanaman Modal Luar Negeri (PMDN).
Soal Penugasan:
Pada data excel yang terlampir, lakukanlah Analisis berikut:
Lakukan uji analisis deskriptif untuk semua variabel dependen dan independen!
Lakukan uji goodness of fit!
Variabel apa sajakah yang signifikan dengan alpha 5%?
Lakukan uji asumsi klasik untuk model regresi yang dibentuk!
Melihat Peubah Data
## 'data.frame': 34 obs. of 8 variables:
## $ Provinsi : chr "ACEH" "SUMATERA UTARA" "SUMATERA BARAT" "RIAU" ...
## $ IPM : num 72.8 72.7 73.3 73.5 72.1 ...
## $ Kemiskinan : num 14.45 8.15 5.95 6.68 7.58 ...
## $ Gini : num 0.311 0.312 0.3 0.326 0.32 0.339 0.315 0.314 0.236 0.342 ...
## $ Pengangguran: num 6.17 6.16 6.28 4.37 4.59 4.63 3.59 4.52 4.77 8.23 ...
## $ PMLN : num 127.6 1316.1 95.6 2748.7 39.2 ...
## $ PMDN : num 4424 22789 2560 43062 8883 ...
## $ Daerah : int 1 1 1 1 1 1 1 1 1 1 ...
Melihat Statistik Deskriptif Data
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.250 6.240 8.425 10.089 12.252 26.030
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 61.39 70.23 72.19 71.97 73.22 81.65
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2360 0.3140 0.3365 0.3439 0.3725 0.4390
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.340 4.000 4.685 4.966 6.048 8.310
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 611 3534 6757 16258 20170 89224
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 28.3 107.3 508.6 1341.3 1303.6 7486.0
## [1] 5.183509
## [1] 3.90075
## [1] 0.04640594
## [1] 1.600225
## [1] 22571.84
## [1] 1879.3
## [1] 51.37723
## [1] 5.4201
## [1] 13.49241
## [1] 32.22248
## [1] 138.836
## [1] 140.1085
Berdasarkan hasil penghitungan koefisien variasi menunjukkan bahwa variabel PMLN memiliki sebaran yang paling besar daripada variabel lainnya. Hal ini dapat diartikan bahwa variabel nilai PMLN paling menyebar diantara satu provinsi terhadap provinsi lainnya dibandingkan variabel lainnya Variabel IPM memiliki nilai koefisien korelasi yang paling kecil dibandingkan variabel lainnya.
## [1] 1.183511
## [1] 0.03546685
## [1] 0.0927637
## [1] 0.4580908
## [1] 2.064336
## [1] 1.879866
Selanjutnya dilakukan analisis nilai Skewness. Berdasarkan nilai skewness diperoleh hasil bahwa tiga variabel bebas mengalami menceng kiri yakni variabel Gini, IPM, dan Pengangguran. Hal ini dapat diartikan bahwa nilai modus dari variabel variabel Gini, IPM, dan Pengangguran lebih lebih tinggi dari rata-rata. Sementara itu tiga variabel lainnya seperti kemiskinan, PMDN dan PMLN mengalami menceng kanan. Hal ini dapat diartikan bahwa nilai modus dari variabel variabel kemiskinan, PMDN dan PMLN lebih lebih rendah dari rata - rata.
Melihat Bar Chart
Gini_barchart <- ggplot(Gini_indo,
aes(x = reorder(Gini_indo$data.Provinsi, Gini_indo$data.Gini),
y = Gini_indo$data.Gini)) +
geom_bar(stat = "identity") +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(title = "Gini", y = "Gini", x = "Provinsi") +
coord_flip()
Gini_barchart
## Warning: Use of `Gini_indo$data.Provinsi` is discouraged.
## i Use `data.Provinsi` instead.
## Warning: Use of `Gini_indo$data.Gini` is discouraged.
## i Use `data.Gini` instead.
## Use of `Gini_indo$data.Gini` is discouraged.
## i Use `data.Gini` instead.
Gini_barchart <- ggplot(Gini_indo,
aes(x = reorder(Gini_indo$data.Provinsi, Gini_indo$data.Gini),
y = Gini_indo$data.Gini)) +
geom_bar(stat = "identity", color='skyblue', fill='steelblue') +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(title = "Gini", y = "Gini", x = "Provinsi") +
coord_flip()
Gini_barchart
## Warning: Use of `Gini_indo$data.Provinsi` is discouraged.
## i Use `data.Provinsi` instead.
## Warning: Use of `Gini_indo$data.Gini` is discouraged.
## i Use `data.Gini` instead.
## Use of `Gini_indo$data.Gini` is discouraged.
## i Use `data.Gini` instead.
Sumber sintaks bar chart: https://jagostat.com/R/membuat-bar-chart-dalam-pemrograman-r#google_vignette
Sebaran Data (Menggunakan Boxplot)
Sebaran dari data akan dieksplorasi menggunakan boxplot dan diperoleh hasil sebagai berikut:
par(mfrow=c(2,3))
boxplot(data$Gini,main="Sebaran Gini")
boxplot(data$IPM,main="Sebaran IPM")
boxplot(data$Kemiskinan,main="Sebaran kemiskinan")
boxplot(data$Pengangguran,main="Sebaran pengangguran")
boxplot(data$PMDN,main="Sebaran PMDN")
boxplot(data$PMLN,main="Sebaran PMLN")
## -- Attaching core tidyverse packages ------------------------ tidyverse 2.0.0 --
## v dplyr 1.1.0 v readr 2.1.4
## v forcats 1.0.0 v stringr 1.5.0
## v lubridate 1.9.2 v tibble 3.1.8
## v purrr 1.0.1 v tidyr 1.3.0
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## i Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
is_outlier <- function(x) {
return(x < quantile(x, 0.25) - 1.5 * IQR(x) | x > quantile(x, 0.75) + 1.5 * IQR(x))
}
z_data %>%
pivot_longer(names_to = "variable", values_to = "value", -type) %>%
group_by(variable) %>%
mutate(outlier = if_else(is_outlier(value), type, NA_character_)) %>%
ggplot(aes(x = variable, y = value, color = variable)) +
geom_boxplot() +
geom_text_repel(aes(label = outlier), na.rm = TRUE, show.legend = F)
Berdasarkan tabel diatas dapat diketahui bahwa terdapat amatan yang
outlier pada tiap variabel, sehingga analisis pada tiap variabel yang
terdapat outlier dapat dikaji sebagai berikut:
- Variabel IPM :
Pada provinsi DKI Jakarta dan DI Yogyakarta memiliki nilai IPM yang paling tinggi dibandingkan provinsi lainnya, sehingga kedua provinsi ini dapat digunakan sebagai rujukan dalam upaya meningkatkan nilai IPM. Disisi lain, Provinsi Papua berada di posisi outlier bagian bawah, hal ini dapat diartikan pada IPM di Provinsi Papua lebih rendah dibandingkan provinsi lainnya. Dengan demikian perlu dilakukan upaya yang lebih komprehensif dalam meningkatkan IPM di Provinsi Papua
- Variabel Kemiskinan :
Pada Provinsi Papua memiliki angka kemiskinan yang paling tinggi dibandingkan provinsi lainnya, sehingga perlu dilakukan upaya yang lebih komprehensif dalam menurunkan angka kemiskinan di Provinsi Papua
- Variabel PMDN:
Pada provinsi DKI Jakarta, Jawa Barat, Jawa Timur memiliki nilai PMDN yang paling tinggi dibandingkan provinsi lainnya, sehingga ketiga provinsi ini dapat digunakan sebagai rujukan dalam upaya meningkatkan nilai PMDN
- Variabel PMLN:
Pada provinsi DKI Jakarta, Jawa Barat, Jawa Timur, Banten, Sulawesi Tengah, Maluku Utara memiliki nilai PMLN yang paling tinggi dibandingkan provinsi lainnya, sehingga kelima provinsi ini dapat digunakan sebagai rujukan dalam upaya meningkatkan nilai PMLN
Pola Hubungan Antarpeubah
Diagram Pencar
Diagram pencar dapat digunakan untuk memeriksa pola hubungan antara dua peubah. Pada diagram pencar dapat ditambahkan persamaan garis regresi linier antara dua peubah tersebut yang memberikan gambaran antara pola pencaran data dengan persamaan garis regresi linier yang terbentuk.
diagram pencar
# Get the input values.
input <- data[, c('IPM', 'Gini')]
# Plot the chart for cars with
# weight between 1.5 to 4 and
# mileage between 10 and 25.
plot(x = input$IPM, y = input$Gini,
xlab = "IPM",
ylab = "Gini",
xlim = c(50, 90),
ylim = c(0.2, 0.6),
main = "Gini vs IPM"
)
# Get the input values.
input <- data[, c('Pengangguran', 'Gini')]
# Plot the chart for cars with
# weight between 1.5 to 4 and
# mileage between 10 and 25.
plot(x = input$Pengangguran, y = input$Gini,
xlab = "Pengangguran",
ylab = "Gini",
xlim = c(0, 10),
ylim = c(0.2, 0.6),
main = "Gini vs Pengangguran"
)
# Get the input values.
input <- data[, c('Kemiskinan', 'Gini')]
# Plot the chart for cars with
# weight between 1.5 to 4 and
# mileage between 10 and 25.
plot(x = input$Kemiskinan, y = input$Gini,
xlab = "Kemiskinan",
ylab = "Gini",
xlim = c(0, 30),
ylim = c(0.2, 0.6),
main = "Gini vs Kemiskinan"
)
# Get the input values.
input <- data[, c('PMLN', 'Gini')]
# Plot the chart for cars with
# weight between 1.5 to 4 and
# mileage between 10 and 25.
plot(x = input$PMLN, y = input$Gini,
xlab = "PMLN",
ylab = "Gini",
xlim = c(0, 5000),
ylim = c(0.2, 0.6),
main = "Gini vs PMLN"
)
# Get the input values.
input <- data[, c('PMDN', 'Gini')]
# Plot the chart for cars with
# weight between 1.5 to 4 and
# mileage between 10 and 25.
plot(x = input$PMDN, y = input$Gini,
xlab = "PMDN",
ylab = "Gini",
xlim = c(1000, 50000),
ylim = c(0.2, 0.6),
main = "Gini vs PMDN"
)
Korelasi Linier
## corrplot 0.92 loaded
## Provinsi IPM Kemiskinan Gini Pengangguran PMLN PMDN Daerah
## 1 ACEH 72.80 14.45 0.311 6.17 127.6 4424.2 1
## 2 SUMATERA UTARA 72.71 8.15 0.312 6.16 1316.1 22789.2 1
## 3 SUMATERA BARAT 73.26 5.95 0.300 6.28 95.6 2559.8 1
## 4 RIAU 73.52 6.68 0.326 4.37 2748.7 43062.0 1
## 5 JAMBI 72.14 7.58 0.320 4.59 39.2 8882.7 1
## 6 SUMATERA SELATAN 70.90 11.78 0.339 4.63 1226.3 23526.0 1
## IPM Kemiskinan Gini Pengangguran PMLN PMDN
## IPM 1.00 -0.68 0.17 0.49 0.12 0.45
## Kemiskinan -0.68 1.00 0.28 -0.40 -0.16 -0.32
## Gini 0.17 0.28 1.00 0.02 0.13 0.35
## Pengangguran 0.49 -0.40 0.02 1.00 0.22 0.49
## PMLN 0.12 -0.16 0.13 0.22 1.00 0.58
## PMDN 0.45 -0.32 0.35 0.49 0.58 1.00
Berdasarkan visualisasi korelasi linier dan berdasarkan klasifikasi
korelasi Sugiyono (2018) ddiperoleh hasil bahwa korelasi variabel bebas
yang memiliki hubungan yang rendah dengan variabel respon adalah PMDN
dan kemiskinan sedangkan hubungan variabel bebas lainnya terhadap
variabel respon adalah sangat rendah. Variabel bebas yang mempunyai
korelasi linier paling erat dengan variable tak bebasnya (Gini) adalah
variabel PMDN, sedangkan variabel bebas yang mempunyai korelasi linier
paling lemah dengan variable tak bebasnya (Gini) adalah variabel
pengangguran.
Pengujian Korelasi Linier
- Gini dan IPM
H0: Tidak terdapat korelasi linier antara peubah Gini dan IPM
H1: Terdapat korelasi linier antara peubah Gini dan IPM
##
## Pearson's product-moment correlation
##
## data: data$Gini and data$IPM
## t = 0.9852, df = 32, p-value = 0.3319
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1768489 0.4817893
## sample estimates:
## cor
## 0.1715779
Kesimpulan :
Karena diperoleh p-value >= 0.05 maka dapat disimpulkan bahwa H0 gagal ditolak yang berarti tidak terdapat korelasi linier antara peubah Gini dan IPM.
- Gini dan Kemiskinan
H0: Tidak terdapat korelasi linier antara peubah Gini dan Kemiskinan
H1: Terdapat korelasi linier antara peubah Gini dan Kemiskinan
##
## Pearson's product-moment correlation
##
## data: data$Gini and data$Kemiskinan
## t = 1.6319, df = 32, p-value = 0.1125
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.06728896 0.56261361
## sample estimates:
## cor
## 0.277184
Kesimpulan :
Karena diperoleh p-value >= 0.05 maka dapat disimpulkan bahwa H0 gagal ditolak yang berarti tidak terdapat korelasi linier antara peubah Gini dan Kemiskinan.
- Gini dan Pengangguran
H0: Tidak terdapat korelasi linier antara peubah Gini dan Pengangguran
H1: Terdapat korelasi linier antara peubah Gini dan Pengangguran
##
## Pearson's product-moment correlation
##
## data: data$Gini and data$Pengangguran
## t = 0.089743, df = 32, p-value = 0.9291
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3240414 0.3521393
## sample estimates:
## cor
## 0.01586252
Kesimpulan :
Karena diperoleh p-value >= 0.05 maka dapat disimpulkan bahwa H0 gagal ditolak yang berarti tidak terdapat korelasi linier antara peubah Gini dan Pengangguran.
- Gini dan PMDN
H0: Tidak terdapat korelasi linier antara peubah Gini dan PMDN
H1: Terdapat korelasi linier antara peubah Gini dan PMDN
##
## Pearson's product-moment correlation
##
## data: data$Gini and data$PMDN
## t = 2.1122, df = 32, p-value = 0.04257
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.01318868 0.61519013
## sample estimates:
## cor
## 0.3497943
Kesimpulan :
Karena diperoleh p-value < 0.05 maka dapat disimpulkan bahwa H0 ditolak yang berarti terdapat korelasi linier antara peubah Gini dan PMDN.
- Gini dan PMLN
H0: Tidak terdapat korelasi linier antara peubah Gini dan PMLN
H1: Terdapat korelasi linier antara peubah Gini dan PMLN
##
## Pearson's product-moment correlation
##
## data: data$Gini and data$PMLN
## t = 0.76956, df = 32, p-value = 0.4472
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2130794 0.4523451
## sample estimates:
## cor
## 0.1347994
Kesimpulan :
Karena diperoleh p-value < 0.05 maka dapat disimpulkan bahwa H0 gagal ditolak yang berarti terdapat tidak korelasi linier antara peubah Gini dan PMLN.
Pemodelan Regresi
A. Semua Peubah Input
##
## Call:
## lm(formula = Gini ~ IPM + Kemiskinan + Pengangguran + PMDN +
## PMLN, data = data)
##
## Coefficients:
## (Intercept) IPM Kemiskinan Pengangguran PMDN
## -1.764e-01 6.487e-03 6.351e-03 -4.836e-03 8.779e-07
## PMLN
## -6.618e-07
##
## Call:
## lm(formula = Gini ~ IPM + Kemiskinan + Pengangguran + PMDN +
## PMLN, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.067349 -0.028432 0.006359 0.032324 0.056852
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.764e-01 1.910e-01 -0.923 0.36375
## IPM 6.487e-03 2.553e-03 2.541 0.01688 *
## Kemiskinan 6.351e-03 1.753e-03 3.622 0.00115 **
## Pengangguran -4.836e-03 5.070e-03 -0.954 0.34832
## PMDN 8.779e-07 4.261e-07 2.060 0.04876 *
## PMLN -6.618e-07 4.426e-06 -0.150 0.88221
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03792 on 28 degrees of freedom
## Multiple R-squared: 0.4333, Adjusted R-squared: 0.3321
## F-statistic: 4.282 on 5 and 28 DF, p-value: 0.005111
Melakukan uji goodness of fit
1. Interpretasi Koefisien Determinasi:
Adjusted R2 = 0,3321, artinya kontribusi pengaruh lima variabel bebas (yakni variabel IPM, Kemiskinan, Pengangguran, PMDN, dan PMLN) terhadap variabel Gini adalah sebesar 33,21%, sisanya 66,79% dipengaruhi oleh faktor lain.
2. Melakukan uji simultan
Hipotesis uji simultan:
H0 : Variabel bebas tidak berpengaruh terhadap Gini
H1 : Minimal terdapat salah satu variabel bebas yang berpengaruh terhadap Gini
Hasil Uji Simultan:
Nilai pvalue (0,005111)< alpha (5 persen) sehingga keputusannya adalah tolak H0. Interpretasinya Tidak ada cukup bukti untuk menolak pernyataan bahwa terhadap Gini secara signifikan pada alpha 5%.
3. Melakukan uji parsial
Uji Parsial pada X1 (IPM):
H0: IPM tidak berpengaruh terhadap Gini
H1: IPM berpengaruh terhadap Gini
Nilai pvalue (0,01688)< alpha (5 persen) sehingga keputusannya adalah tolak H0.
Interpretasinya
Tidak ada cukup bukti untuk menolak pernyataan bahwa variabel IPM berpengaruh terhadap Gini secara signifikan pada alpha 5%.
Uji Parsial X2 (Kemiskinan):
H0: Kemiskinan tidak berpengaruh terhadap Gini
H1: Kemiskinan berpengaruh terhadap Gini
Nilai pvalue (0,00115)< alpha (5 persen) sehingga keputusannya adalah tolak H0.
Interpretasinya
Tidak ada cukup bukti untuk menolak pernyataan bahwa variabel Kemiskinan berpengaruh terhadap Gini secara signifikan pada alpha 5%.
Uji Parsial X3 (Pengangguran):
H0: Pengangguran tidak berpengaruh terhadap Gini
H1: Pengangguran berpengaruh terhadap Gini
Nilai pvalue (0,34832)>alpha (5 persen) sehingga keputusannya adalah gagal tolak H0.
Interpretasinya
Tidak ada cukup bukti untuk menerima pernyataan bahwa variabel IPM berpengaruh terhadap Gini secara signifikan pada alpha 5%.
Uji Parsial X4 (PMDN):
H0: PMDN tidak berpengaruh terhadap Gini
H1: PMDN berpengaruh terhadap Gini
Nilai pvalue (0,04876)< alpha (5 persen) sehingga keputusannya adalah tolak H0.
Interpretasinya
Tidak ada cukup bukti untuk menolak pernyataan bahwa variabel PMDN berpengaruh terhadap Gini secara signifikan pada alpha 5%.
Uji Parsial X5(PMLN):
H0: PMLN tidak berpengaruh terhadap Gini
H1: PMLN berpengaruh terhadap Gini
Nilai pvalue (0,88221)> alpha (5 persen) sehingga keputusannya adalah gagal tolak H0.
Interpretasinya
Tidak ada cukup bukti untuk menerima pernyataan bahwa variabel PMLN berpengaruh terhadap Gini secara signifikan pada alpha 5%. Berdasarkan uji parsial yang telah dilakukan diperoleh kesimpulan bahwa terdapat tiga variable bebas yang berpengaruh terhadap Gini pada alpha 5% yakni variable IPM, Kemiskinan dan PMDN
Pengujian Asumsi
Normalitas
##
## Shapiro-Wilk normality test
##
## data: residuals(model)
## W = 0.94636, p-value = 0.09548
Hipotesis :
H0: Data berdistribusi normal
H1: Data berdistribusi tidak normal
Nilai pvalue (0,09548)> alpha (5 persen) sehingga keputusannya adalah gagal tolak H0.
Interpretasinya
Tidak ada cukup bukti untuk menolak pernyataan bahwa data berdistribusi normal pada alpha 5%
Homoskedastisitas
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 2.1283, df = 5, p-value = 0.8311
Hipotesis :
H0: Data homoskedastis
H1: Data heteroskedatis
Nilai pvalue (0,8311)> alpha (5 persen) sehingga keputusannya adalah gagal tolak H0.
Interpretasinya
Tidak ada cukup bukti untuk menolak pernyataan bahwa varians data homogen pada alpha 5%