Library:
> install.packages("knitr")
> install.packages("rmarkdown")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror> install.packages("prettydoc")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror> install.packages("equatiomatic")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirrorDalam beberapa tahun terakhir, Amerika Serikat telah mengalami peningkatan yang signifikan dalam angka pembunuhan di berbagai kota. Fenomena ini menarik perhatian banyak pihak, termasuk penegak hukum, pembuat kebijakan, para peneliti, dan para sosiolog. Peningkatan angka pembunuhan memiliki dampak yang luas, tidak hanya pada korban dan keluarga mereka tetapi juga pada rasa aman di masyarakat, stabilitas sosial, dan ekonomi lokal. Dalam upaya untuk merumuskan kebijakan yang efektif dan intervensi yang tepat, penting bagi peneliti untuk mengidentifikasi faktor-faktor utama yang berkorelasi dengan angka pembunuhan.
Analisis regresi adalah metode statistik yang digunakan untuk memahami hubungan antara satu variabel dependen (respon) dengan satu atau lebih variabel independen (prediktor). Hal ini dilakukan untuk membuat prediksi, memahami hubungan antar variabel, dan mengidentifikasi faktor-faktor yang signifikan dalam mempengaruhi variabel respon.
Dengan menggunakan analisis regresi, peneliti dapat mengidentifikasi variabel mana yang memiliki dampak signifikan terhadap variabel respon. Ini penting untuk pengambilan keputusan yang berbasis data. Dalam konteks penelitian sosial, seperti studi tentang tingkat pembunuhan di Amerika Serikat, analisis regresi sangat relevan. Dengan menggunakan regresi, peneliti dapat mengidentifikasi bagaimana faktor-faktor seperti ukuran populasi, pendapatan rendah, dan tingkat pengangguran berkontribusi terhadap tingkat pembunuhan. Analisis ini memberikan dasar ilmiah yang kuat untuk merumuskan kebijakan yang dapat mengurangi kejahatan dan meningkatkan kesejahteraan masyarakat.
Analisis regresi adalah kajian dari hubungan antara satu variabel, yaitu variabel yang diterangkan (the explained variabel) dengan satu atau lebih variabel dan variabel yang menerangkan (the explanatory). Analisis regresi membantu dalam memahami sejauh mana perubahan pada variabel independen mempengaruhi variabel dependen. Regresi digunakan untuk membuat prediksi berdasarkan data yang ada.
Jenis analisis regresi linear ada dua, yaitu:
Regresi Linear Sederhana
Persamaan regresi linier sederhana merupakan suatu model persamaan yang
menggambarkan hubungan satu variabel bebas/ prediktor (X) dengan satu
variabel tak bebas/ response (Y) (Yuliara, 2016).
Model regresi ini berbentuk: \[
Y=\beta_{0}+\beta_{1}X_{1}+e
\]
dengan \(Y\) merupakan variabel respons, \(X\) variabel prediktor, \(\beta_{0}\) Intersep, \(\beta_{1}\) koefisien regresi, dan \(e\) standard error.
Regresi Linear Berganda
Digunakan ketika ada lebih dari satu variabel independen yang
mempengaruhi variabel dependen.
Model regresi ini berbentuk: \[
Y=\beta_{0}+\beta_{1}X_{1}+...+\beta_{k}X_{k}+e
\] dengan \(Y\) = variabel
respons, \(X_{1},...,X_{k}\) = variabel
prediktor, \(\beta_{0},...,\beta_{k}\)
= Koefisien regresi, dan \(e\) =
Standard Error.
Asumsi normalitas dalam analisis regresi mengharuskan distribusi error (kesalahan) mengikuti distribusi normal untuk memastikan validitas uji hipotesis, estimasi parameter yang akurat, dan pembuatan interval kepercayaan yang tepat. Asumsi ini bisa dilakukan melalui plot Q-Q, uji statistik seperti Shapiro-Wilk dan Kolmogorov-Smirnov, histogram residual, serta uji skewness dan kurtosis. Asumsi normalitas harus dipenuhi dalam analisis regresi karena banyak uji statistik mengandalkan asumsi ini untuk menghasilkan hasil yang akurat dan tidak bias.
Homoskedastisitas adalah salah satu asumsi utama dalam analisis regresi yang menyatakan bahwa varians dari error (kesalahan) adalah konstan untuk semua nilai variabel independen. Dengan kata lain, error memiliki distribusi yang sama di seluruh rentang nilai variabel independen. Asumsi ini penting untuk memastikan bahwa hasil estimasi koefisien regresi adalah efisien dan tidak bias, serta untuk validitas uji statistik yang digunakan dalam model regresi.
Asumsi dalam analisis regresi yang menyatakan bahwa variabel independen (prediktor) tidak memiliki hubungan linear yang sempurna atau sangat kuat satu sama lain. Multikolinieritas terjadi ketika dua atau lebih variabel independen memiliki korelasi yang tinggi, yang dapat mengganggu estimasi koefisien regresi dan interpretasi model. Metode mengidentifikasi multikolinearitas dapat dilakukan menggunakan Korelasi Pearson, Variance Inflation Factor (VIF), Tolerance, dan Condition Index.
Non-autokorelasi adalah asumsi dalam analisis regresi yang menyatakan bahwa residual (kesalahan) dari model regresi tidak berkorelasi satu sama lain. Artinya, nilai residual pada satu waktu tidak boleh mempengaruhi nilai residual pada waktu lain. Autokorelasi sering terjadi dalam data deret waktu (time series), di mana observasi-observasi berurutan dalam waktu sering kali saling berkorelasi. Biasanya diidentifikasi dengan Durbin-Watson Test, Plot Residual, dan ACF.
Koefisien determinasi R2 adalah ukuran statistik yang digunakan dalam konteks analisis regresi untuk menilai seberapa baik model regresi menjelaskan variabilitas dalam data yang diamati. Nilai 𝑅2 berkisar antara 0 dan 1.
R2 =0 menunjukkan model tidak menjelaskan variabilitas dalam data
R2 =1 menunjukkan bahwa model regresi menjelaskan semua variabilitas dalam data
Peneliti dapat mengevaluasi apakah model regresi mereka memberikan penjelasan yang signifikan terhadap variabilitas data dan membuat keputusan yang lebih tepat berdasarkan hasil analisis. Uji F adalah alat penting dalam analisis regresi untuk menilai signifikansi keseluruhan model.
Dengan memahami dan menggunakan uji F secara tepat, peneliti dapat mengevaluasi apakah model regresi mereka memberikan penjelasan yang signifikan terhadap variabilitas data dan membuat keputusan yang lebih tepat berdasarkan hasil analisis. Jika p-value kurang dari tingkat signifikansi maka kita menolak hipotesis nol dan menyimpulkan bahwa model regresi adalah signifikan secara statistik.
Data ini menjelaskan tentang penelitian sosiolog terkait peningkatan
tren pembunuhan di seluruh Amerika Serikat dengan tingkat pembunuhan per
100.000 penduduk (Y) terkait dengan ukuran populasi (X1), persentase
keluarga dengan pendapatan tahunan kurang dari $5.000 (X2), dan tingkat
pengangguran (X3). Data disajikan dalam tabel untuk sampel hipotesis
yang terdiri dari 20 kota.
Data ini diambil dari Soal Paket 1 pada nomor 3 dari laman: https://www.scribd.com/document/407797901/Soal-Responsi-Praktikum-Analisis-Regresi
Untuk mengetahui faktor-faktor mana yang mempengaruhi tingkat pembunuhan yang nantikan akan membantu dalam pengambilan keputusan dalam upaya untuk menurunkan tingkat kriminalitas di kota yang ada di Amerika Serikat.
> library(tseries)
> library(lmtest)
> library(car)> city = c(1,2,3,4,5,6,7,8,9,10)
> X1 = c(587,643,635,692,1248,643,1964,1531,713,749)
> X2 = c(6.2,6.4,9.3,5.3,7.3,5.9,6.4,7.6,4.9,6.4)
> Y = c(11.2,13.4,40.7,5.3,24.8,12.7,20.9,35.7,8.7,9.6)
> dataregresi <- data.frame(X1,X2,Y)
> dataregresi
X1 X2 Y
1 587 6.2 11.2
2 643 6.4 13.4
3 635 9.3 40.7
4 692 5.3 5.3
5 1248 7.3 24.8
6 643 5.9 12.7
7 1964 6.4 20.9
8 1531 7.6 35.7
9 713 4.9 8.7
10 749 6.4 9.6> plot (Y~X1,data=dataregresi,xlab= "Ukuran Populasi",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Ukuran Populasi dengan Tingkat Pembunuhan per 100.000 Penduduk")> plot (Y~X2,data=dataregresi,xlab= "Persentase keluarga dengan Pendapatan Tahunan <$5.000",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Persentase keluarga dengan Pendapatan Tahunan <$5.000 dengan Tingkat Pembunuhan per 100.000 Penduduk")> regresiberganda <- lm(Y~X1+X2, data=dataregresi)
> summary(regresiberganda)
Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)
Residuals:
Min 1Q Median 3Q Max
-6.053 -1.703 -1.162 1.794 5.882
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -42.898596 7.397301 -5.799 0.000664 ***
X1 0.006365 0.002904 2.192 0.064490 .
X2 8.403692 1.102686 7.621 0.000124 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.08 on 7 degrees of freedom
Multiple R-squared: 0.9101, Adjusted R-squared: 0.8844
F-statistic: 35.42 on 2 and 7 DF, p-value: 0.000218> sisa<-residuals(regresiberganda)
> shapiro.test(sisa)
Shapiro-Wilk normality test
data: sisa
W = 0.94445, p-value = 0.6035> jarque.bera.test(sisa)
Jarque Bera Test
data: sisa
X-squared = 0.23837, df = 2, p-value = 0.8876> bptest(regresiberganda)
studentized Breusch-Pagan test
data: regresiberganda
BP = 0.6031, df = 2, p-value = 0.7397> vif(regresiberganda)
X1 X2
1.031249 1.031249 > dwtest(regresiberganda)
Durbin-Watson test
data: regresiberganda
DW = 2.1031, p-value = 0.6194
alternative hypothesis: true autocorrelation is greater than 0> regresiberganda
Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)
Coefficients:
(Intercept) X1 X2
-42.898596 0.006365 8.403692 Berdasarkan perhitungan analisis regresi linear berganda diperoleh model regresi linear sebagai berikut:
\[
Y=-42.898596+ 0.006365X_1+8.403692X_2\] dengan nilai\(\beta_0=-42.898596,
\beta_1=0.006365,\beta_2=8.403692\) dan
\(Y\) = Tingkat pembunuhan per 100.000
penduduk
\(X_1\) = Ukuran populasi
\(X_2\) = Persentase keluarga dengan
pendapatan tahunan kurang dari $5.000
Interpretasi:
> plot (Y~X1,data=dataregresi,xlab= "Ukuran Populasi",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Ukuran Populasi dengan Tingkat Pembunuhan per 100.000 Penduduk")> plot (Y~X2,data=dataregresi,xlab= "Persentase keluarga dengan Pendapatan Tahunan <$5.000",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Persentase keluarga dengan Pendapatan Tahunan <$5.000 dengan Tingkat Pembunuhan per 100.000 Penduduk")Berdasarkan plot diatas, dapat disimpulkan bahwa data tersebar dan tidak membentuk suatu pola tertentu.
> summary(regresiberganda)
Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)
Residuals:
Min 1Q Median 3Q Max
-6.053 -1.703 -1.162 1.794 5.882
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -42.898596 7.397301 -5.799 0.000664 ***
X1 0.006365 0.002904 2.192 0.064490 .
X2 8.403692 1.102686 7.621 0.000124 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.08 on 7 degrees of freedom
Multiple R-squared: 0.9101, Adjusted R-squared: 0.8844
F-statistic: 35.42 on 2 and 7 DF, p-value: 0.000218Dari hasil perhitungan analisis regresi diperoleh nilai \(R^2\) sebesar 0.9101 yang artinya bahwa model regresi linear berganda ini dapat menjelaskan sekitar 91,01% variasi dari variabel respon atau tingkat pembunuhan per 100.000 penduduk dengan menggunakan variabel prediktor berupa ukuran populasi dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000.
Hipotesis:
\(H_0\) : \(\beta_1=\beta_2=0\) (Tidak ada pengaruh variabel prediktor terhadap tingkat pembunuhan per 100.000)
\(H_1\) : \(\beta_i≠0 ; i=1,2\) (Paling tidak terdapat satu variabel prediktor yang berpengaruh terhadap tingkat pembunuhan per 100.000)
Statistik Uji
> summary(regresiberganda)
Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)
Residuals:
Min 1Q Median 3Q Max
-6.053 -1.703 -1.162 1.794 5.882
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -42.898596 7.397301 -5.799 0.000664 ***
X1 0.006365 0.002904 2.192 0.064490 .
X2 8.403692 1.102686 7.621 0.000124 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.08 on 7 degrees of freedom
Multiple R-squared: 0.9101, Adjusted R-squared: 0.8844
F-statistic: 35.42 on 2 and 7 DF, p-value: 0.000218Kesimpulan:
Interpretasi :
Hipotesis:
\(H_0\) : Sisaan berdistribusi normal
\(H_1\) : Sisaan tidak berdistribusi normal
Statistik Uji:
> sisa<-residuals(regresiberganda)
> shapiro.test(sisa)
Shapiro-Wilk normality test
data: sisa
W = 0.94445, p-value = 0.6035> jarque.bera.test(sisa)
Jarque Bera Test
data: sisa
X-squared = 0.23837, df = 2, p-value = 0.8876Kesimpulan : p-value > \(\alpha\) , maka \(H_0\) diterima
Interpretasi: Berdasarkan hasil Uji Shapiro-wilk didapatkan p-value sebesar 0,6035 dan Uji Jarque Bara didapatkan p-value sebesar 0.8876. Kedua p-value bernilai lebih besar daripada \(\alpha\) (0,05) sehingga dapat dikatakan galat berdistribusi normal.
Hipotesis:
\(H_0\) : Ragam sisaan homogen
\(H_1\) : Ragam sisaan tidak homogen
Statistik Uji:
> bptest(regresiberganda)
studentized Breusch-Pagan test
data: regresiberganda
BP = 0.6031, df = 2, p-value = 0.7397Kesimpulan : p-value > \(\alpha\) , maka \(H_0\) diterima
Interpretasi: Berdasarkan hasil diatas, didapatkan nilai signifikansi/p-value sebesar 0.7397 dan lebih besar dari \(\alpha\) (0,05), sehingga dapat dikatakan ragam bersifat homogen.
> vif(regresiberganda)
X1 X2
1.031249 1.031249 Interpretasi: Berdasarkan nilai di atas, diperoleh nilai VIF pada \(X_1\) sebesar 1,031249 dan VIF pada \(X_2\) sebesar 1,031249 atau VIF bernilai sama dan lebih besar daripada \(\alpha\) (0,05) sehingga dapat disimpulkan ragam homogen. Nilai VIF keduanya kurang dari 10 maka dapat dikatakan tidak terjadi multikolinieritas dalam model.
Hipotesis:
\(H_0\) : Tidak terdapat autokorelasi pada sisaan model
\(H_1\) : Terdapat autokorelasi pada sisaan model
Statistik Uji:
> dwtest(regresiberganda)
Durbin-Watson test
data: regresiberganda
DW = 2.1031, p-value = 0.6194
alternative hypothesis: true autocorrelation is greater than 0Kesimpulan : p-value > \(\alpha\) , maka \(H_0\) diterima.
Interpretasi: Berdasarkan Durbin-watson test didapatkan p-value sebesar 0,6194 dan lebih besar dari \(\alpha\) (0,05), sehingga dapat disimpulkan bahwa asumsi non-autokorelasi ini telah terpenuhi.
Analisis regresi berganda efektif digunakan untuk mengidentifikasi dan mengukur hubungan antara beberapa variabel independen dan variabel dependen. Analisis regresi menghasilkan model yang baik ketika semua asumsi telah terpenuhi. Dalam kasus ini, seluruh asumsi telah terpenuhi sehingga dapat disimpulkan bahwa model regresi yang terbentuk sesuai.
Dari hasil pengujian diperoleh kesimpulan bahwa ukuran populasi dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000 memiliki pengaruh terhadap tingkat pembunuhan per 100.000 penduduk. Namun jika secara parsial ukuran populasi tidak memiliki pengaruh dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000 memiliki pengaruh terdapat variabel respon. Sehingga sosiolog tersebut dapat menyusun kebijakan yang lebih efektif terkait tren pembunuhan di seluruh Amerika Serikat.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). Hoboken, NJ: Wiley.
Yuliara (2016). Modul Regresi Linier Berganda. Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Udayana. 1-18.
Sastroasmoro, S., & Ismael, S. (2017). Dasar-dasar statistika untuk penelitian. Jakarta: Rajawali Pers.