Analisis Regresi Berganda pada Ukuran Populasi dan Persentase Keluarga dengan pendapatan Tahunan Kurang dari $5.000 terhadap Tingkat Pembunuhan di Amerika Serikat

Nur Sofi Sely Oktavia

2024-05-20

Library:

> install.packages("knitr")
> install.packages("rmarkdown")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror

> install.packages("prettydoc")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror

> install.packages("equatiomatic")
Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror

1 PENDAHULUAN

1.1 Latar Belakang

Dalam beberapa tahun terakhir, Amerika Serikat telah mengalami peningkatan yang signifikan dalam angka pembunuhan di berbagai kota. Fenomena ini menarik perhatian banyak pihak, termasuk penegak hukum, pembuat kebijakan, para peneliti, dan para sosiolog. Peningkatan angka pembunuhan memiliki dampak yang luas, tidak hanya pada korban dan keluarga mereka tetapi juga pada rasa aman di masyarakat, stabilitas sosial, dan ekonomi lokal. Dalam upaya untuk merumuskan kebijakan yang efektif dan intervensi yang tepat, penting bagi peneliti untuk mengidentifikasi faktor-faktor utama yang berkorelasi dengan angka pembunuhan.

Analisis regresi adalah metode statistik yang digunakan untuk memahami hubungan antara satu variabel dependen (respon) dengan satu atau lebih variabel independen (prediktor). Hal ini dilakukan untuk membuat prediksi, memahami hubungan antar variabel, dan mengidentifikasi faktor-faktor yang signifikan dalam mempengaruhi variabel respon.

Dengan menggunakan analisis regresi, peneliti dapat mengidentifikasi variabel mana yang memiliki dampak signifikan terhadap variabel respon. Ini penting untuk pengambilan keputusan yang berbasis data. Dalam konteks penelitian sosial, seperti studi tentang tingkat pembunuhan di Amerika Serikat, analisis regresi sangat relevan. Dengan menggunakan regresi, peneliti dapat mengidentifikasi bagaimana faktor-faktor seperti ukuran populasi, pendapatan rendah, dan tingkat pengangguran berkontribusi terhadap tingkat pembunuhan. Analisis ini memberikan dasar ilmiah yang kuat untuk merumuskan kebijakan yang dapat mengurangi kejahatan dan meningkatkan kesejahteraan masyarakat.

1.2 Tinjauan Pustaka

1.2.1 Model Regresi Linear

Analisis regresi adalah kajian dari hubungan antara satu variabel, yaitu variabel yang diterangkan (the explained variabel) dengan satu atau lebih variabel dan variabel yang menerangkan (the explanatory). Analisis regresi membantu dalam memahami sejauh mana perubahan pada variabel independen mempengaruhi variabel dependen. Regresi digunakan untuk membuat prediksi berdasarkan data yang ada.

Jenis analisis regresi linear ada dua, yaitu:

Regresi Linear Sederhana
Persamaan regresi linier sederhana merupakan suatu model persamaan yang menggambarkan hubungan satu variabel bebas/ prediktor (X) dengan satu variabel tak bebas/ response (Y) (Yuliara, 2016).
Model regresi ini berbentuk: \[ Y=\beta_{0}+\beta_{1}X_{1}+e \]

dengan $Y$ merupakan variabel respons, $X$ variabel prediktor, $\beta_{0}$ Intersep, $\beta_{1}$ koefisien regresi, dan $e$ standard error.
Regresi Linear Berganda
Digunakan ketika ada lebih dari satu variabel independen yang mempengaruhi variabel dependen.
Model regresi ini berbentuk: \[ Y=\beta_{0}+\beta_{1}X_{1}+...+\beta_{k}X_{k}+e \] dengan $Y$ = variabel respons, $X_{1},...,X_{k}$ = variabel prediktor, $\beta_{0},...,\beta_{k}$ = Koefisien regresi, dan $e$ = Standard Error.

1.2.2 Asumsi Normalitas Galat

Asumsi normalitas dalam analisis regresi mengharuskan distribusi error (kesalahan) mengikuti distribusi normal untuk memastikan validitas uji hipotesis, estimasi parameter yang akurat, dan pembuatan interval kepercayaan yang tepat. Asumsi ini bisa dilakukan melalui plot Q-Q, uji statistik seperti Shapiro-Wilk dan Kolmogorov-Smirnov, histogram residual, serta uji skewness dan kurtosis. Asumsi normalitas harus dipenuhi dalam analisis regresi karena banyak uji statistik mengandalkan asumsi ini untuk menghasilkan hasil yang akurat dan tidak bias.

1.2.3 Asumsi Homoskesdastisitas

Homoskedastisitas adalah salah satu asumsi utama dalam analisis regresi yang menyatakan bahwa varians dari error (kesalahan) adalah konstan untuk semua nilai variabel independen. Dengan kata lain, error memiliki distribusi yang sama di seluruh rentang nilai variabel independen. Asumsi ini penting untuk memastikan bahwa hasil estimasi koefisien regresi adalah efisien dan tidak bias, serta untuk validitas uji statistik yang digunakan dalam model regresi.

1.2.4 Asumsi Non Multikolinieritas

Asumsi dalam analisis regresi yang menyatakan bahwa variabel independen (prediktor) tidak memiliki hubungan linear yang sempurna atau sangat kuat satu sama lain. Multikolinieritas terjadi ketika dua atau lebih variabel independen memiliki korelasi yang tinggi, yang dapat mengganggu estimasi koefisien regresi dan interpretasi model. Metode mengidentifikasi multikolinearitas dapat dilakukan menggunakan Korelasi Pearson, Variance Inflation Factor (VIF), Tolerance, dan Condition Index.

1.2.5 Asumsi Non-Autokorelasi

Non-autokorelasi adalah asumsi dalam analisis regresi yang menyatakan bahwa residual (kesalahan) dari model regresi tidak berkorelasi satu sama lain. Artinya, nilai residual pada satu waktu tidak boleh mempengaruhi nilai residual pada waktu lain. Autokorelasi sering terjadi dalam data deret waktu (time series), di mana observasi-observasi berurutan dalam waktu sering kali saling berkorelasi. Biasanya diidentifikasi dengan Durbin-Watson Test, Plot Residual, dan ACF.

1.2.6 Uji R-Square

Koefisien determinasi R² adalah ukuran statistik yang digunakan dalam konteks analisis regresi untuk menilai seberapa baik model regresi menjelaskan variabilitas dalam data yang diamati. Nilai 𝑅² berkisar antara 0 dan 1.

R² =0 menunjukkan model tidak menjelaskan variabilitas dalam data
R² =1 menunjukkan bahwa model regresi menjelaskan semua variabilitas dalam data

1.2.7 Uji F

Peneliti dapat mengevaluasi apakah model regresi mereka memberikan penjelasan yang signifikan terhadap variabilitas data dan membuat keputusan yang lebih tepat berdasarkan hasil analisis. Uji F adalah alat penting dalam analisis regresi untuk menilai signifikansi keseluruhan model.

Dengan memahami dan menggunakan uji F secara tepat, peneliti dapat mengevaluasi apakah model regresi mereka memberikan penjelasan yang signifikan terhadap variabilitas data dan membuat keputusan yang lebih tepat berdasarkan hasil analisis. Jika p-value kurang dari tingkat signifikansi maka kita menolak hipotesis nol dan menyimpulkan bahwa model regresi adalah signifikan secara statistik.

1.3 Data

Data ini menjelaskan tentang penelitian sosiolog terkait peningkatan tren pembunuhan di seluruh Amerika Serikat dengan tingkat pembunuhan per 100.000 penduduk (Y) terkait dengan ukuran populasi (X1), persentase keluarga dengan pendapatan tahunan kurang dari $5.000 (X2), dan tingkat pengangguran (X3). Data disajikan dalam tabel untuk sampel hipotesis yang terdiri dari 20 kota.
Data ini diambil dari Soal Paket 1 pada nomor 3 dari laman: https://www.scribd.com/document/407797901/Soal-Responsi-Praktikum-Analisis-Regresi

1.4 Tujuan

Untuk mengetahui faktor-faktor mana yang mempengaruhi tingkat pembunuhan yang nantikan akan membantu dalam pengambilan keputusan dalam upaya untuk menurunkan tingkat kriminalitas di kota yang ada di Amerika Serikat.

2 SOURCE CODE

2.1 Library

> library(tseries)
> library(lmtest)
> library(car)

2.2 Impor Data

> city = c(1,2,3,4,5,6,7,8,9,10)
> X1 = c(587,643,635,692,1248,643,1964,1531,713,749)
> X2 = c(6.2,6.4,9.3,5.3,7.3,5.9,6.4,7.6,4.9,6.4)
> Y = c(11.2,13.4,40.7,5.3,24.8,12.7,20.9,35.7,8.7,9.6)
> dataregresi <- data.frame(X1,X2,Y)
> dataregresi
     X1  X2    Y
1   587 6.2 11.2
2   643 6.4 13.4
3   635 9.3 40.7
4   692 5.3  5.3
5  1248 7.3 24.8
6   643 5.9 12.7
7  1964 6.4 20.9
8  1531 7.6 35.7
9   713 4.9  8.7
10  749 6.4  9.6

2.3 Plot

> plot (Y~X1,data=dataregresi,xlab= "Ukuran Populasi",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Ukuran Populasi dengan Tingkat Pembunuhan per 100.000 Penduduk")

> plot (Y~X2,data=dataregresi,xlab= "Persentase keluarga dengan Pendapatan Tahunan <$5.000",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Persentase keluarga dengan Pendapatan Tahunan <$5.000 dengan Tingkat Pembunuhan per 100.000 Penduduk")

2.4 Analisis Regresi

> regresiberganda <- lm(Y~X1+X2, data=dataregresi)
> summary(regresiberganda)

Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)

Residuals:
   Min     1Q Median     3Q    Max 
-6.053 -1.703 -1.162  1.794  5.882 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -42.898596   7.397301  -5.799 0.000664 ***
X1            0.006365   0.002904   2.192 0.064490 .  
X2            8.403692   1.102686   7.621 0.000124 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.08 on 7 degrees of freedom
Multiple R-squared:  0.9101,    Adjusted R-squared:  0.8844 
F-statistic: 35.42 on 2 and 7 DF,  p-value: 0.000218

2.5 Asumsi

2.5.1 Asumsi Normalitas Galat

> sisa<-residuals(regresiberganda)
> shapiro.test(sisa)

    Shapiro-Wilk normality test

data:  sisa
W = 0.94445, p-value = 0.6035

> jarque.bera.test(sisa)

    Jarque Bera Test

data:  sisa
X-squared = 0.23837, df = 2, p-value = 0.8876

2.5.2 Asumsi Homoskedastisitas

> bptest(regresiberganda)

    studentized Breusch-Pagan test

data:  regresiberganda
BP = 0.6031, df = 2, p-value = 0.7397

2.5.3 Asumsi Non Multikolinieritas

> vif(regresiberganda)
      X1       X2 
1.031249 1.031249

2.5.4 Asumsi Non-Autokorelasi

> dwtest(regresiberganda)

    Durbin-Watson test

data:  regresiberganda
DW = 2.1031, p-value = 0.6194
alternative hypothesis: true autocorrelation is greater than 0

3 HASIL DAN PEMBAHASAN

3.1 Regresi Linear Berganda

> regresiberganda

Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)

Coefficients:
(Intercept)           X1           X2  
 -42.898596     0.006365     8.403692

Berdasarkan perhitungan analisis regresi linear berganda diperoleh model regresi linear sebagai berikut:

\[ Y=-42.898596+ 0.006365X_1+8.403692X_2\] dengan nilai$\beta_0=-42.898596, \beta_1=0.006365,\beta_2=8.403692$ dan
$Y$ = Tingkat pembunuhan per 100.000 penduduk
$X_1$ = Ukuran populasi
$X_2$ = Persentase keluarga dengan pendapatan tahunan kurang dari $5.000

Interpretasi:

Saat ukuran populasi dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000 bernilai konstan/nol, maka tingkat pembunuhan per 100.000 penduduk sebesar -42,8908596 atau tidak ada pembunuhan.
Saat ukuran populasi bertambah satu satuan, maka akan meningkatkan tingkat pembunuhan per 100.000 penduduk sebesar 0,006365.
Saat persentase keluarga dengan pendapatan tahunan kurang dari $5.000 bertambah per satu satuan, maka akan meningkatkan tingkat pembunuhan per 100.000 penduduk sebesar 8,403692.

3.2 Plot

> plot (Y~X1,data=dataregresi,xlab= "Ukuran Populasi",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Ukuran Populasi dengan Tingkat Pembunuhan per 100.000 Penduduk")

> plot (Y~X2,data=dataregresi,xlab= "Persentase keluarga dengan Pendapatan Tahunan <$5.000",ylab="Tingkat Pembunuhan per 100.000 Penduduk", main="Hubungan antara Persentase keluarga dengan Pendapatan Tahunan <$5.000 dengan Tingkat Pembunuhan per 100.000 Penduduk")

Berdasarkan plot diatas, dapat disimpulkan bahwa data tersebar dan tidak membentuk suatu pola tertentu.

3.3 Uji R-Square

> summary(regresiberganda)

Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)

Residuals:
   Min     1Q Median     3Q    Max 
-6.053 -1.703 -1.162  1.794  5.882 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -42.898596   7.397301  -5.799 0.000664 ***
X1            0.006365   0.002904   2.192 0.064490 .  
X2            8.403692   1.102686   7.621 0.000124 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.08 on 7 degrees of freedom
Multiple R-squared:  0.9101,    Adjusted R-squared:  0.8844 
F-statistic: 35.42 on 2 and 7 DF,  p-value: 0.000218

Dari hasil perhitungan analisis regresi diperoleh nilai $R^2$ sebesar 0.9101 yang artinya bahwa model regresi linear berganda ini dapat menjelaskan sekitar 91,01% variasi dari variabel respon atau tingkat pembunuhan per 100.000 penduduk dengan menggunakan variabel prediktor berupa ukuran populasi dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000.

3.4 Uji F

Hipotesis:

$H_0$ : $\beta_1=\beta_2=0$ (Tidak ada pengaruh variabel prediktor terhadap tingkat pembunuhan per 100.000)

$H_1$ : $\beta_i≠0 ; i=1,2$ (Paling tidak terdapat satu variabel prediktor yang berpengaruh terhadap tingkat pembunuhan per 100.000)

Statistik Uji

> summary(regresiberganda)

Call:
lm(formula = Y ~ X1 + X2, data = dataregresi)

Residuals:
   Min     1Q Median     3Q    Max 
-6.053 -1.703 -1.162  1.794  5.882 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -42.898596   7.397301  -5.799 0.000664 ***
X1            0.006365   0.002904   2.192 0.064490 .  
X2            8.403692   1.102686   7.621 0.000124 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.08 on 7 degrees of freedom
Multiple R-squared:  0.9101,    Adjusted R-squared:  0.8844 
F-statistic: 35.42 on 2 and 7 DF,  p-value: 0.000218

Kesimpulan:

p-value $X_1=0.064490$ > $\alpha$ , maka $H_0$ diterima
p-value $X_2=0.000124$ < $\alpha$ , maka $H_0$ ditolak
p-value= $0.000218$ < $\alpha$ , maka $H_0$ ditolak

Interpretasi :

Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa ukuran populasi tidak berpengaruh secara signifikan terhadap tingkat pembunuhan per 100.000 penduduk
Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa persentase keluarga dengan pendapatan tahunan kurang dari $5.000 berpengaruh secara signifikan terhadap tingkat pembunuhan per 100.000 penduduk.
Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa ukuran populasi dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000 berpengaruh secara signifikan terhadap tingkat pembunuhan per 100.000 penduduk.

3.5 Uji Asumsi

3.5.1 Asumsi Normalitas Galat

Hipotesis:

$H_0$ : Sisaan berdistribusi normal

$H_1$ : Sisaan tidak berdistribusi normal

Statistik Uji:

> sisa<-residuals(regresiberganda)
> shapiro.test(sisa)

    Shapiro-Wilk normality test

data:  sisa
W = 0.94445, p-value = 0.6035

> jarque.bera.test(sisa)

    Jarque Bera Test

data:  sisa
X-squared = 0.23837, df = 2, p-value = 0.8876

Kesimpulan : p-value > $\alpha$ , maka $H_0$ diterima

Interpretasi: Berdasarkan hasil Uji Shapiro-wilk didapatkan p-value sebesar 0,6035 dan Uji Jarque Bara didapatkan p-value sebesar 0.8876. Kedua p-value bernilai lebih besar daripada $\alpha$ (0,05) sehingga dapat dikatakan galat berdistribusi normal.

3.5.2 Asumsi Homoskesdastisitas

Hipotesis:

$H_0$ : Ragam sisaan homogen

$H_1$ : Ragam sisaan tidak homogen

Statistik Uji:

> bptest(regresiberganda)

    studentized Breusch-Pagan test

data:  regresiberganda
BP = 0.6031, df = 2, p-value = 0.7397

Kesimpulan : p-value > $\alpha$ , maka $H_0$ diterima

Interpretasi: Berdasarkan hasil diatas, didapatkan nilai signifikansi/p-value sebesar 0.7397 dan lebih besar dari $\alpha$ (0,05), sehingga dapat dikatakan ragam bersifat homogen.

3.5.3 Asumsi Non Multikolinieritas

> vif(regresiberganda)
      X1       X2 
1.031249 1.031249

Interpretasi: Berdasarkan nilai di atas, diperoleh nilai VIF pada $X_1$ sebesar 1,031249 dan VIF pada $X_2$ sebesar 1,031249 atau VIF bernilai sama dan lebih besar daripada $\alpha$ (0,05) sehingga dapat disimpulkan ragam homogen. Nilai VIF keduanya kurang dari 10 maka dapat dikatakan tidak terjadi multikolinieritas dalam model.

3.5.4 Asumsi Non-Autokorelasi

Hipotesis:

$H_0$ : Tidak terdapat autokorelasi pada sisaan model

$H_1$ : Terdapat autokorelasi pada sisaan model

Statistik Uji:

> dwtest(regresiberganda)

    Durbin-Watson test

data:  regresiberganda
DW = 2.1031, p-value = 0.6194
alternative hypothesis: true autocorrelation is greater than 0

Kesimpulan : p-value > $\alpha$ , maka $H_0$ diterima.

Interpretasi: Berdasarkan Durbin-watson test didapatkan p-value sebesar 0,6194 dan lebih besar dari $\alpha$ (0,05), sehingga dapat disimpulkan bahwa asumsi non-autokorelasi ini telah terpenuhi.

4 KESIMPULAN

Analisis regresi berganda efektif digunakan untuk mengidentifikasi dan mengukur hubungan antara beberapa variabel independen dan variabel dependen. Analisis regresi menghasilkan model yang baik ketika semua asumsi telah terpenuhi. Dalam kasus ini, seluruh asumsi telah terpenuhi sehingga dapat disimpulkan bahwa model regresi yang terbentuk sesuai.

Dari hasil pengujian diperoleh kesimpulan bahwa ukuran populasi dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000 memiliki pengaruh terhadap tingkat pembunuhan per 100.000 penduduk. Namun jika secara parsial ukuran populasi tidak memiliki pengaruh dan persentase keluarga dengan pendapatan tahunan kurang dari $5.000 memiliki pengaruh terdapat variabel respon. Sehingga sosiolog tersebut dapat menyusun kebijakan yang lebih efektif terkait tren pembunuhan di seluruh Amerika Serikat.

5 DAFTAR PUSTAKA

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). Hoboken, NJ: Wiley.

Yuliara (2016). Modul Regresi Linier Berganda. Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Udayana. 1-18.

Sastroasmoro, S., & Ismael, S. (2017). Dasar-dasar statistika untuk penelitian. Jakarta: Rajawali Pers.