1 PENDAHULUAN
1.1 Latar Belakang
Analisis kriminalitas merupakan hal yang sangat penting untuk memahami karakteristik keamanan dan faktor sosial yang memengaruhi tingkat kejahatan di berbagai wilayah.Analisis ini penting dilakukan untuk melihat perbedaan tingkat kriminalitas di antar negara khususnya di negara bagian Amerika Serikat serta untuk melihat bagaimana faktor urbanisasi berkorelasi dengan kejahatan. Studi kasus jenis kejahatan berat di Amerika Serikat menggunakan USArrests untuk mengetahui faktor faktor yang mempengaruhi kriminalitas dan keamanan serta menjelaskan bagaimana karakteristik demografis suatu negara terkait dengan tingkat kejahatannya. Pada USArrest mencatat data kriminalitas 50 negara bagian di Amerika Serikat pada tahun 1973 dengan memberikan gambaran tentang empat jenis kejahatan utama, yaitu Muerder (pembunuhan), Assault (penyerangan), UrbanPop (populasi perkotaan), dan Rape (pemerkosaan). Pemahaman yang mendalam mengenai landasan kebijakan publik untuk menangani dan mencegah kejahatan terutama pada wilayah dengan populasi perkotaan yang tinggi cenderung menunjukkan tingkat kejahatan yang berbeda dibandingkan wilayah dengan populasi perkotaan rendah.
Salah satu metode yang tepat untuk menganalisis USArrest adalah dengan Principal Component Analysis (PCA). PCA dapat membantu menyederhanakan 4 variabel kriminalitas menjadi beberapa komponen utama yang mewakili karakteristik utama dari data. Dengan demikian, PCA memungkinkan untuk lebih mudah menvisualisasikan dan menginterpretasikan pola pola dalam data sehingga menemukan kelompok negara bagian dengan karakteristik kriminalitas serupa atau yang lebih menonjol karena tingkat kriminalitas yang lebih tinggi pada kategori tertentu.
1.2 Tujuan Penelitian
Tujuan dari penelitian ini adalah :
Untuk mengidentifikasi komponen utama yang paling signifikan dalam mempengaruhi variasi tingkat kriminalitras di negara bagian Amerika Serikat.
Untuk memberikan wawasan yang lebih dalam mengenai karakteristik sosial dan geografis yang berkontribusi pada perbedaan tingkat kejahatan.
Untuk mengetahui bagaimana hubungan antara tingkat kriminalitas dalam 4 variabel tersebut pada negara bagian dan bagaimana variabel- variabel tersebut saling berinteraksi
1.3 Manfaat Penelitian
Penelitian ini memiliki manfaat sebagai berikut:
Bidang Kriminologi : Penelitian ini dapat memberikan wawasan yang lebih mendalam mngenai faktor-faktor yang mempengaruhi tingkat kejahatan di Amerika Serikat sehingga dapat membantu dalam mencegah kejahatan secara efektif.
Bidang Kebijakan Publik: Penelitian ini dapat memberikan rekomendasi untuk membuat kebijakan pada program-program yang bertujuan untuk mengurangi kejahatan terutama didaerah perkotaan dengan populasi tinggi.
Penelitian Lanjutan: Hasil penelitian dapat menjadi dasar untuk penelitian lanjutan dalam bidang ini, termasuk analisis yang lebih mendalam mengenai tingkat kejahatan di berbagai negara bagian.
2 TINJAUAN PUSTAKA
2.1 Analisis Multivariat
Analisis Multivariat adalah suatu metode statistik yang digunakan untuk menganalisis hubungan simultan antara dua variabel atau lebih. Analisis ini mencakup sejumlah teknik yang dapat digunakan untuk memahami struktur hubungan kompleks diantara variabel-variabel tersebut. Analisis multivariat dikelompokkan menjadi dua kelompok besar, yaitu metode dependensi dan metode interdependensi (Widarjono,2015).
Analisis dependensi merupakan analisis untuk mengetahui hubungan antara variabel dependen dan independen. Contoh analisis dependensi, yaitu: anova, ancova, analisis regresi berganda, dan analisis diskriman.Sedangkan Analisis interdependensi merupakan analisis saling ketergantungan yang sering digunakan untuk memberikan arti kepada suatu set variabel atau mengelompokkan suatu set variabel menjadi kelompok yang lebih sedikit jumlahnya dan masing-masing kelompok membentuk variabel baru yang disebut faktor. Contoh teknik interdependensi adalah principal component analysis (PCA) dan analisis faktor.
Analisis multivariat dapat digunakan untuk mengatasi permasalahan dalam kehidupan sehari-hari.Analisis ini mencakup sejumlah teknik yang dapat digunakan untuk memahami struktur hubungan kompleks diantara variabel-variabel tersebut. Penggunaan analisis multivariat sangat umum dalam beragam disiplin ilmu, termasuk ilmu ekonomi, sosial,kedokteran, dan bidang lainnya guna meraih wawasan yang lebih mendalam dari data yang lebih kompleks.
2.2 Principal Component Analysisis (PCA)
2.2.1 Definisi Principal Component Analysisis (PCA)
Metode Principal Component Analysis (PCA) ditemukan oleh Karl Perason pada tahun 1901 yang digunakan pada bidang biologi. Pada tahun 1947 teori ini ditemukan kembali oleh Karhunen, dan kemudian dikembangkan oleh Loeve pada tahun l963, sehingga teori ini juga dinamakan Karhunen-Loeve transform pada bidang ilmu telekomunikasi. Principal Component Analysis (PCA) adalah teknik yang digunakan untuk menyederhanakan suatu data dengan cara mentransformasi data secara linier sehingga terbentuk sistem koordinat baru dengan varians maksimum (Widarjono,2015). Tujuan dari PCA adalah dapat mereduksi dimensi suatu data mnejadi dimensi yang lebih rendah dengan resiko informasi yang kecil dengan menggantikan set variabel asal.
PCA memberikan memberikan hasil yang baik ketika diterapkan pada data yang memiliki jumlah variabel yang besar dan memiliki korelasi antar variabelnya. Perhitungan dari PCA didasarkan pada perhitungan nilai eigen dan vektor eigen yang menyatakan penyebaran data dari suatu dataset. Dengan menggunakan metode ini, variabel yang tadinya sebanyak n variabel akan diseleksi menjadi k variabel baru yang disebut principal component dengan jumlah k lebih sedikit dari n. Dengan hanya menggunakan k principal component akan menghasilkan nilai yang sama dengan menggunakan n variabel.
2.2.2 Kegunaan Principal Component Analysisis (PCA)
Berdasarkan buku Multivariate Data Analysis With Readings Edisi ke-4 (1995) yang ditulis oleh Hair J.F., Anderson R.E., Tatham R.I, dan Black W.C., Principal Component Analysis biasanya digunakan untuk:
Identiifikasi variabel baru yang mendasari data variabel ganda.
Mengurangi banyaknya dimensi himpunan variabel yang biasanya terdiri atas variabel yang banyak dan saling berkorelasi dengan mempertahankan sebanyak mungkin keragaman dalam himpunan data tersebut.
Menghilangkan variabel asal yang mempunyai sumbangan informasi yang relatif kecil. Variabel baru yang dimaksud disebut komponen utama yang memiliki ciri:
Merupakan kombinasi linier variabel-variabel asal.
Tidak berkorelasi, dan mempunyai ragamm berurut dari yang terbesar ke yang terkecil.
Jumlah kuadrat koefisien dalam kombinasi linier tersebutbernilai satu.
2.2.3 Tahapan Principal Component Analysisis (PCA)
Analisis ini diperoleh melalui 6 tahapan berikut, yaitu:
Standarisasi Data : Standardisasi yaitu transformasi data sehingga semua variabel memiliki nilai rata-rata=0 dan simpangan baku= 1. Tujuan standardisasi untuk memastikan semua fitur memiliki kepentingan yang sama dalam analisis tanpa terpengaruh oleh skala data.
Membuat Matriks Kovarian: Matriks kovarian adalah sebuah matriks persegi yang elemen-elemennya menggambarkan kovarian antara setiap pasangan peubah dalam dataset. Jadi, jika kita memiliki dataset dengan \(k\) variabel, maka matriks kovarian akan berukuran \(k \times k\).
Menghitung Nilai Eigen dan Vektor Eigen: Nilai eigen dan vektor eigen adalah konsep matematika yang terkait dengan transformasi linier dan matriks. Dalam konteks PCA, keduanya merupakan kunci dalam mengidentifikasi komponen utama.
Mengurutkan Nilai Eigen dan Vektor Eigen: Untuk mengidentifikasi komponen utama yang paling signifikan, nilai eigen diurutkan dari nilai terbesar hingga terkecil. Hasilnya, komponen utama pertama adalah vektor eigen dengan nilai eigen terbesar dan merupakan komponen yang menjelaskan varians terbanyak.
Memilih Komponen Utama: Pilih subset dari vektor eigen teratas untuk membentuk matriks transformasi. Matriks ini digunakan untuk memproyeksikan data asli ke dalam ruang berdimensi lebih rendah, menghasilkan dataset yang telah direduksi.
Transformasi Data asli: Lakukan perkalian matriks antara data asli dengan matriks komponen utama yang diperoleh sebelumnya. Hasil perkalian tersebut adalah data baru berdasarkan hasil PCA, dengan jumlah dimensi baru sebanyak komponen utama yang dipilih.
2.3 Analisis Faktor
2.3.1 Definisi Analisis Faktor
Analisis faktor merupakan salah satu teknik analisis dalam statistika yang membahas tentang pengelompokkan variabel-variabel dalam suatu data yang mempunyai hubungan satu sama lain.Analisis faktor dibedakan menjadi 2 yaitu analisis faktor eksplorasi dan analisis faktor konfirmatori. Analisis faktor eksplorasi adalah mengeksplorasi indikator-indikator yang ada untuk keperluan pengelompokkan indikator atau variabel baru. Sedangkan Analisis faktor konfirmatori adalah menganalisis variabel yang diduga memiliki keterikatan antara satu dengan yang lain. Tujuan dari analisis faktor adalah untuk menggambarkan hubunganhubungan kovarian antara beberapa variabel yang mendasari tetapi tidak teramati, kuantitas random yang disebut faktor, (Johnson &Wichern, 2002). Faktor random teramati X dengann p komponen, memiliki rata-rata μ dan matriks kovarian Model analisis faktor adalah sebagai berikut : \[X_{1}-\mu _{1}=l_{11}+F_{1}+l_{12}+F_{2}+....+l_{1m}F_{m}+\varepsilon _{1}\] \[X_{p}-\mu _{p}=l_{p1}+F_{1}+l_{p2}+F_{2}+....+l_{pm}F_{m}+\varepsilon _{p} \] Atau dapat ditulis dalam notasi matriks sebagai berikut : \[X_{pxl}=\mu _{pxl}+L_{pxm}F_{mxl}+\varepsilon _{pxl} \]
2.3.2 Metode Ekstrasi Faktor
Ekstraksi faktor bertujuan untuk menyederhanakan kompleksitas data dengan menemukan serangkaian faktor laten yang terkait dengan variabel yang diamati. Salah satu metode umum untuk mengekstrak faktor adalah Principal Component Analysis (PCA), PCA mengasumsikan bahwa setiap variabel dapat dijelaskan melalui kombinasi linear faktor bersama yang berarti faktor-faktor tersebut mencakup variasi keseluruhan variabel. Jika semua faktor berkontribusi terhadap variasi suatu variabel, maka komunalitasnya mencapai 100% (atau 1). Namun dalam praktiknya, hal ini jarang terjadi karena variabel jarang dapat direduksi menjadi beberapa faktor yang mewakili variasi semua variabel. Dalam PCA, jika komunalitas kurang dari 1 maka menandakan bahwa ada kehilangan informasi dalam representasi tersebut.
2.3.3 Metode Penentuan Jumlah Faktor
Penentuan banyak faktor adalah salah satu langkah penting dalam analisis faktor. Banyak faktor yang dipilih haruslah sesuai dengan data yang digunakan. Jika banyak faktor yang dipilih terlalu sedikit, maka faktor-faktor tersebut tidak akan dapat mewakili semua informasi yang ada pada data.
Ada beberapa metode yang dapat digunakan untuk menentukan faktor, yaitu:
Berdasarkan Eigenvalues nilai eigen mengacu pada jumlah varians yang dijelaskan oleh suatu faktor. Ini dapat digunakan untuk menentukan jumlah faktor yang perlu dipertahankan dalam kumpulan data. Dalam literatur, faktor-faktor dengan nilai eigen lebih besar dari 1,0 harus dipertahankan (Zwick dan Velicer 1986).
Berdasarkan Scree Plot Plot Scre adalah plot garis nilai eigen faktor (Cattell 1966). Plot menampilkan nilai eigen pada sumbu y dan jumlah faktor pada sumbu x. Untuk menentukan jumlah faktor yang perlu dipertahankan, perhatikan titik di mana nilai eigen menurun tajam dan kemudian turun kembali. Plot scree juga menegaskan sejumlah faktor yang perlu kita pertahankan.
Berdasarkan Analisis Paralel Analisis paralel adalah metode berbasis simulasi yang digunakan untuk menghasilkan data acak dengan karakteristik serupa dengan data observasi. Dilanjutkan dengan membandingkan nilai eigen yang diambil dari data observasi dengan data simulasi; dan mempertahankan faktor dengan nilai eigen lebih tinggi dari data simulasi.
2.3.4 Rotasi Faktor
Rotasi faktor dilakukan untuk mempermudah interpretasi dalam hasil yang disebabkan oleh hasil analisis faktor yang tidak unik.Hal ini berarti, hasil analisis faktor yang tidak dirotasi dapat menghasilkan faktor-faktor yang tidak unik yaitu faktor-faktor yang memiliki variabel-variabel yang sama. Rotasi faktor dapat membantu untuk mengatasi hal ini dengan mengatur faktor-faktor sehingga variabel-variabel yang memiliki korelasi yang tinggi berada pada faktor yang sama.
Rotasi juga diperlukan untuk menentukan faktor-faktor terkuat yang tepat pada masing-masing variabel tanpa memberikan hasil yang kontradiktif. Rotasi faktor dapat membantu untuk menentukan faktor-faktor yang paling kuat yang sesuai dengan masing-masing variabel. Rotasi faktor dapat dilakukan dengan berbagai metode, salah satunya adalah rotasi Varimax. Rotasi Varimax adalah metode rotasi faktor yang populer karena dapat menghasilkan faktor-faktor yang mudah untuk ditafsirkan.
2.4 Uji Hipotesis
2.4.1 Bartlett’s test of sphericity
Pada analisis faktor, diperlukan variabel-variabel yang saling berkorelasi. Semakin tinggi nilai korelasi antar variabel, maka semakin besar kemungkinan variabel tersebut berada di faktor yang sama. Pada uji bartlett’s test of sphericity dapat ditentukan apakah variabel tersebut memiliki korelasi atau tidak dengan melihat nilai taraf signifikansi yang diperoleh. Apabila nilai sig berada dibawah alpha 0.05, maka korelasi antar variabel rendah sehingga analisis faktor tidak bisa dilanjutkan. Sebaliknya, apabila nilai sig kurang dari 0.05, maka korelasi antar variabel tinggi dan proses analisis faktor dapat dilanjutkan. Hasil pada pada uji Bartlett’s Test of Sphericity jika nilai kurang dari 0.05 maka dikatakan bahwa variabel yang digunakan berkorelasi.
2.4.2 Kaiser-Meyer-Olkin (KMO)
KMO adalah uji yang dilakukan untuk menentukan kelayakan (appropriateness) dari suatu analisis faktor yang akan dilakukan. Skala uji KMO berkisar antara 0 sampai 1. Jika nilai KMO hitung lebih rendah dari 0.5, maka analisis faktor tidak layak dilakukan. Sedangkan jika nilai KMO hitung lebih besar dari 0.5, maka analisis faktor layak dilakukan.
2.4.3 Measure of Sampling Adequacy (MSA)
Uji MSA dilakukan untuk mengukur kecukupan sampling dari setiap variabel. Syarat diterimanya uji MSA yaitu apabila nilai MSA berada diatas 0.5, maka variabel tersebut dapat diprediksi dan dapat dianalisis lebih lanjut. Sedangkan apabila nilai MSA yang didapatkan berada dibawah 0.5, maka variabel tersebut tidak dapat diprediksi dan dianalisis lebih lanjut sehingga variabel tersebut harus dieliminasi.
3 VARIABEL YANG DIGUNAKAN
3.1 Data
Berikut merupakan data yang akan digunakan untuk analisis:
> library(readxl)
> Data_USArrest <- read_excel("~/Data USArrest.xlsx")
> View(Data_USArrest)
> head(Data_USArrest)
# A tibble: 6 × 5
Negara Murder Assault UrbanPop Rape
<chr> <dbl> <dbl> <dbl> <dbl>
1 Alabama 13.2 236 58 21.2
2 Alaska 10 263 48 44.5
3 Arizona 8.1 294 80 31
4 Arkansas 8.8 190 50 19.5
5 California 9 276 91 40.6
6 Colorado 7.9 204 78 38.7
> str(Data_USArrest)
tibble [50 × 5] (S3: tbl_df/tbl/data.frame)
$ Negara : chr [1:50] "Alabama" "Alaska" "Arizona" "Arkansas" ...
$ Murder : num [1:50] 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
$ Assault : num [1:50] 236 263 294 190 276 204 110 238 335 211 ...
$ UrbanPop: num [1:50] 58 48 80 50 91 78 77 72 80 60 ...
$ Rape : num [1:50] 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...Sumber: https://www.kaggle.com/datasets/halimedogan/usarrests?resource=download
3.2 Deskripsi Data
Deskripsi data USArrests dapat diketahui melalui perintah ??USArrests. Data USArrests merupakan dataset yang memuat penangkapan penduduk dikarenakan kasus pembunuhan (Murder), penyerangan (Assault), pemerkosaan (Rape) per 100.000 penduduk dan persentase penduduk yang tinggal di daerah perkotaan (UrbanPop) masing-masing 50 negara bagian AS pada tahun 1973.
4 SOURCE CODE
4.1 Library
4.2 Input Data
> library(readxl)
> Data_USArrest <- read_excel("~/Data USArrest.xlsx")
> View(Data_USArrest)
> head(Data_USArrest)
# A tibble: 6 × 5
Negara Murder Assault UrbanPop Rape
<chr> <dbl> <dbl> <dbl> <dbl>
1 Alabama 13.2 236 58 21.2
2 Alaska 10 263 48 44.5
3 Arizona 8.1 294 80 31
4 Arkansas 8.8 190 50 19.5
5 California 9 276 91 40.6
6 Colorado 7.9 204 78 38.7
> str(Data_USArrest)
tibble [50 × 5] (S3: tbl_df/tbl/data.frame)
$ Negara : chr [1:50] "Alabama" "Alaska" "Arizona" "Arkansas" ...
$ Murder : num [1:50] 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
$ Assault : num [1:50] 236 263 294 190 276 204 110 238 335 211 ...
$ UrbanPop: num [1:50] 58 48 80 50 91 78 77 72 80 60 ...
$ Rape : num [1:50] 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...Untuk membaca data dari excel diperlukan syntax
library(readxl) supaya dapat memuat pustaka atau paket
“readxl” ke dalam lingkungan R. Dengan memuat paket ini, Anda membuat
fungsi-fungsi yang diperlukan dari paket “readxl” tersedia untuk
digunakan dalam analisis.
Kemudian untuk memnaca data excel dengan nama file “Data
USArrest.xlsx” yang terletak pada disk laptop dan disimpan dengan nama
variabel Data_USArrest digunakan syntax
Data_USArrest <- read_excel("~/Data USArrest.xlsx")
4.3 Statistika Deskriptif
> summary(Data_USArrest)
Negara Murder Assault UrbanPop
Length:50 Min. : 0.800 Min. : 45.0 Min. :32.00
Class :character 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50
Mode :character Median : 7.250 Median :159.0 Median :66.00
Mean : 7.788 Mean :170.8 Mean :65.54
3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75
Max. :17.400 Max. :337.0 Max. :91.00
Rape
Min. : 7.30
1st Qu.:15.07
Median :20.10
Mean :21.23
3rd Qu.:26.18
Max. :46.00 Fungsi summary() digunakan untuk menghitung statitika
deskriptif dengan argumen data yang ingin dihitung
(Data_USA). Statistika deskriptif yang dimaksud adalah
mean, median, minimum, maksimum, kuartil 1, dan kuartil 2.
4.4 Bartlett’s Test of Sphericity
> Kasus_Kejahatan <- Data_USArrest[, -1]
> bart_spher(Kasus_Kejahatan)
Bartlett's Test of Sphericity
Call: bart_spher(x = Kasus_Kejahatan)
X2 = 88.288
df = 6
p-value < 2.22e-16Pernyataan library(REdaS) adalah perintah yang ada di
lingkungan untuk memuat packkage “REdaS”. Perintah
bart_spher(Kasus_Kejahatan) mencoba menjalankan fungsi
untuk melakukan analisis faktor menggunakan metode Bartlett’s Sphericity
Test pada variabel bernama Kasus_Kejahatan.
4.5 Uji KMO dan MSA
> library(REdaS)
> KMO_Result <- KMOS(Kasus_Kejahatan)
> KMO_Result
Kaiser-Meyer-Olkin Statistics
Call: KMOS(x = Kasus_Kejahatan)
Measures of Sampling Adequacy (MSA):
Murder Assault UrbanPop Rape
0.6171508 0.6433832 0.5023863 0.7783558
KMO-Criterion: 0.653815Pernyataan library(REdaS) adalah perintah yang ada di
lingkungan untuk memuat packkage “REdaS”. Setelah memuat packages
“REdaS” perintah KMO_Result <- KMOS(Kasus_Kejahatan)
digunakan untuk menjalankan fungsi KMOS dengan argumen
Kasus_Kejahatan. Fungsi ini adalah upaya untuk menghitung
Measure of Sampling Adequacy (MSA) menggunakan metode Kaiser-Meyer-Olkin
(KMO) pada data Data_USArrest. . Hasil perhitungan MSA akan
disimpan dalam variabel bernama KMO_Result. Untuk melihat
hasil dari perhitungan KMO dapat memanggil variabel bernama
KMO_Result, sehingga dapat digunakan untuk mengevaluasi
apakah data Anda cocok untuk analisis faktor.
4.6 Matriks Korelasi
> USArrests_cor <- cor(USArrests[ ,-5])
> USArrests_cor
Murder Assault UrbanPop Rape
Murder 1.00000000 0.8018733 0.06957262 0.5635788
Assault 0.80187331 1.0000000 0.25887170 0.6652412
UrbanPop 0.06957262 0.2588717 1.00000000 0.4113412
Rape 0.56357883 0.6652412 0.41134124 1.0000000
> corrplot(USArrests_cor, method = "number")
Dalam konteks analisis faktor, matriks korelasi digunakan untuk mengukur
tingkat korelasi antara variabel-variabel dalam data tersebut. Kemudian,
untuk melihat visualisasi dari matriks korelasi yang telah dihitung
dapat digunakan fungsi
corrplot dari paket “corrplot”.
Parameter method="number" digunakan untuk menampilkan nilai
korelasi sebagai angka di dalam sel matriks korelasi.
4.7 Nilai Eigen
> USArrests_eig <- eigen(USArrests_cor)
> USArrests_eig
eigen() decomposition
$values
[1] 2.4802416 0.9897652 0.3565632 0.1734301
$vectors
[,1] [,2] [,3] [,4]
[1,] -0.5358995 0.4181809 -0.3412327 0.64922780
[2,] -0.5831836 0.1879856 -0.2681484 -0.74340748
[3,] -0.2781909 -0.8728062 -0.3780158 0.13387773
[4,] -0.5434321 -0.1673186 0.8177779 0.08902432Digunakan fungsi eigen() untuk menghitung nilai eigen
dari matriks korelasi yang telah dihitung sebelumnya yaitu variabel
bernama USArrest_cor. Hasil perhitungan eigenvalues ini
akan disimpan dalam variabel yang diberi nama
USArrest_eig.
4.8 Visualisasi Scree Plot
> scree_data <- data.frame(eigen_value = eigen(USArrests_cor)$values, PC = 1:4)
> plot(x = scree_data$PC, y = scree_data$eigen_value, type = "b",
+ xlab = "Komponen Utama Ke-", ylab = "Eigenvalue",
+ main = "Scree Plot")
Penjelasan dalam perintah ini adalah sebagai berikut: -
eigenvalues merupakan vektor yang berisi nilai eigen dari
komponen-komponen (faktor-faktor) dalam analisis faktor.
xlab = "Komponen Utama Ke-digunakan untuk menjelaskan label sumbu x (sumbu horizontal) dan diberi nama “Komponen Utama Ke-”.ylab = "Eigenvalue"digunakan untuk menjelaskan label sumbu y (sumbu vertikal) dan diberi nama “Eigenvalue”.main = "Scree Plot"digunakan untuk menetapkan judul grafik menjadi “Scree Plot”.
4.9 Ekstraksi Faktor dengan PCA
> PCA = principal(r = USArrests_cor, nfactors = 2, rotate = "varimax")
> PCA$communality
Murder Assault UrbanPop Rape
0.8853816 0.8785149 0.9459401 0.7601701 PCA = principal(r = USArrests_cor, nfactors = nfaktor, rotate = "varimax")
syntax ini digunakan untuk menjalankan fungsi principal()
dalam melakukan analisis faktor. Dimana jenis rotasi yang digunakan
adalah metode rotasi varimax yang bertujuan untuk membuat faktor-faktor
menjadi lebih mudah diinterpretasikan.
Untuk mengakses nilai communalities (komunalitas) dari hasil analisis
faktor yang disimpan dalam objek PCA dapat dipanggil dengan
PCA$communality . Komunalitas adalah ukuran seberapa besar
varians suatu variabel dapat dijelaskan oleh faktor-faktor yang
diekstraksi. Dengan mengeksekusi baris ini, Anda mendapatkan nilai
komunalitas untuk setiap variabel dalam analisis faktor.
4.10 Pendekatan Nilai Eigen
4.11 Koefisien Komponen Utama
> pr.out <- prcomp(x = USArrests[,c(-5)],center = TRUE, scale. = TRUE)
> pr.out
Standard deviations (1, .., p=4):
[1] 1.5748783 0.9948694 0.5971291 0.4164494
Rotation (n x k) = (4 x 4):
PC1 PC2 PC3 PC4
Murder -0.5358995 -0.4181809 0.3412327 0.64922780
Assault -0.5831836 -0.1879856 0.2681484 -0.74340748
UrbanPop -0.2781909 0.8728062 0.3780158 0.13387773
Rape -0.5434321 0.1673186 -0.8177779 0.08902432
> summary(pr.out)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.5749 0.9949 0.59713 0.41645
Proportion of Variance 0.6201 0.2474 0.08914 0.04336
Cumulative Proportion 0.6201 0.8675 0.95664 1.00000Menghitung jumlah komponen utama dengan memperhitungkan akumulasi
proporsi varians. Menerapkan fungsi prcomp() pada dataset
gaya hidup. Dataset ditransformasi dengan mengaktifkan perintah
penskalaan. Hasil analisis dapat dilihat dalam output dari
summary().
4.12 Menghitung Persamaan Komponen Utama
> pr.out$rotation
PC1 PC2 PC3 PC4
Murder -0.5358995 -0.4181809 0.3412327 0.64922780
Assault -0.5831836 -0.1879856 0.2681484 -0.74340748
UrbanPop -0.2781909 0.8728062 0.3780158 0.13387773
Rape -0.5434321 0.1673186 -0.8177779 0.08902432Persamaan komponen utama berdasarkan vektor eigen.
pr.out$rotation menyimpan loading faktor atau koefisien
yang menghubungkan setiap principal component (PC) dengan variabel asli.
Nilai loading yang tinggi (positif / negatif) menunjukkan bahwa variabel
sangat memengaruhi principal component tertentu.
4.13 Rekontruksi Data
> head(pr.out$x[,1:2])
PC1 PC2
Alabama -0.9756604 -1.1220012
Alaska -1.9305379 -1.0624269
Arizona -1.7454429 0.7384595
Arkansas 0.1399989 -1.1085423
California -2.4986128 1.5274267
Colorado -1.4993407 0.9776297
> fviz_pca(pr.out)
Melakukan “Rekontruksi Data” dengan memasukkan nilai variabel pada
komponen utama yang dibuat. Di R cukup dengan mengakses atribut
x pada objek pr.out. Dapat dilihat bahwasanya
kita dapat mereduksi data yang berawal dari 4 dimensi/variabel menjadi 2
dimensi/variabel namun tetap menggambarkan keragaman data. Nilai ini
juga dapat digunakan untuk keperluan analisis selanjutnya seperti
regresi maupun klasifikasi.
5 HASIL DAN PEMBAHASAN
Berikut merupakan hasil dan pembahasan dari analisis yang telah dilakukan.
5.1 Statistika Deskriptif
> summary(Data_USArrest)
Negara Murder Assault UrbanPop
Length:50 Min. : 0.800 Min. : 45.0 Min. :32.00
Class :character 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50
Mode :character Median : 7.250 Median :159.0 Median :66.00
Mean : 7.788 Mean :170.8 Mean :65.54
3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75
Max. :17.400 Max. :337.0 Max. :91.00
Rape
Min. : 7.30
1st Qu.:15.07
Median :20.10
Mean :21.23
3rd Qu.:26.18
Max. :46.00 Dari perhitungan statistika deskriptif tersebut dapat diketahui kondisi data yang dimiliki karena semua variabel memiliki skala nominal sehingga dapat dilihat frekuensi setiap variabelmya. Berdasarkan output didapatkan informasi mengenai data minimal, maksimal, rata-rata, kuartil 1, dan kuartil 3 untuk setiap variabelnya.
5.2 Bartlett’s Test of Sphericity
Hipotesis
\(H_0\): Tidak terdapat korelasi yang signifikan antar beberapa variabel.
\(H_1\): Terdapat korelasi yang signifikan antar beberapa variabel
Keputusan Berdasarkan hasil output tersebut didapatkan bahwa p-value sebesar 2.22e-16. Karena p-value (2.22e-16) < (0.05). Maka tolak \(H_0\).
Interpretasi Dengan taraf nyata 5% dapat disimpulkan bahwa terdapat cukup bukti untuk menyatakan bahwa terdapat korelasi yang signifikan setidaknya antar beberapa variabel. Sehingga matriks korelasi antar variabel pada data layak digunakan dalam analisis faktor.
5.3 Uji KMO dan MSA
> library(REdaS)
> KMO_Result <- KMOS(Kasus_Kejahatan)
> KMO_Result
Kaiser-Meyer-Olkin Statistics
Call: KMOS(x = Kasus_Kejahatan)
Measures of Sampling Adequacy (MSA):
Murder Assault UrbanPop Rape
0.6171508 0.6433832 0.5023863 0.7783558
KMO-Criterion: 0.653815Berdasarkan output diperoleh nilai KMO-Criterion sebesar 0.653815 > (0.05). Hal ini berarti bahwa analisis faktor dapat diterapkan menggunakan matriks korelasi antar variabel pada data. Selain itu, didapatkan seluruh nilai MSA untuk setiap variabel yang bernilai > (0.05). Hal ini juga berarti bahwa semua variabel dapat diikutsertakan dalam analisis faktor selanjutnya.
5.4 Matriks Korelasi
> USArrests_cor <- cor(USArrests[ ,-5])
> USArrests_cor
Murder Assault UrbanPop Rape
Murder 1.00000000 0.8018733 0.06957262 0.5635788
Assault 0.80187331 1.0000000 0.25887170 0.6652412
UrbanPop 0.06957262 0.2588717 1.00000000 0.4113412
Rape 0.56357883 0.6652412 0.41134124 1.0000000
> corrplot(USArrests_cor, method = "number")
Berdasarkan hasil plot matriks korelasi yang dibentuk, diperoleh
informasi bahwa nilai koefisien korelasi antar variabel tidak sama
dengan 0. Hal ini menunjukkan adanya hubungan pada setiap variabelnya
sehingga memenuhi asumsi model analisis faktor. Selain itu diketahui
korelasi antar variabel Assault (Penyerangan) dengan variabel Murder
(Pmebunuhan) sebesar 0.8, dimana nilai ini lebih besar dari korelasi
variabel lainnya.
5.5 Nilai Eigen
> USArrests_eig <- eigen(USArrests_cor)
> USArrests_eig
eigen() decomposition
$values
[1] 2.4802416 0.9897652 0.3565632 0.1734301
$vectors
[,1] [,2] [,3] [,4]
[1,] -0.5358995 0.4181809 -0.3412327 0.64922780
[2,] -0.5831836 0.1879856 -0.2681484 -0.74340748
[3,] -0.2781909 -0.8728062 -0.3780158 0.13387773
[4,] -0.5434321 -0.1673186 0.8177779 0.08902432Berdasarkan output yang didapatkan, diperoleh nilai setiap variabelnya. Dimana variabel yang memiliki nilai eigen lebih dari satu ada pada komponen 1 yang merupakan komponen paling penting karena menjelaskan varians terbesar dalam data. Pada komponen kedua juga signifikan karena nilai eigen nya mendekati 1, namun kurang kuat dari komponen pertama. Maka dapat ditentukan bahwa jumlah komponen utama sebanyak 2.
Berdasarkan eigen vektornya dapat dikatakan bahwa Komponen pertama dipengaruhi secara kuat oleh variabel pertama, kedua, dan keempat. Sedangkan pada Komponen keempat dipengaruhi terutama oleh variabel kedua.
5.6 Visualisasi Scree Plot
> scree_data <- data.frame(eigen_value = eigen(USArrests_cor)$values, PC = 1:4)
> plot(x = scree_data$PC, y = scree_data$eigen_value, type = "b",
+ xlab = "Komponen Utama Ke-", ylab = "Eigenvalue",
+ main = "Scree Plot")
Dapat dilihat berdasarkan pada scree plot, yang dihasilkan
bahwa banyak faktor bermakna yang akan diekstrak adalah sebnayak 2
faktor. Dapat dilihat bahwa pada faktor pertama memiliki nilai eigen
lebih dari 1 (cukup baik dalam menjelaskan variansi masing-masing
variabel) dan faktor kedua memiliki nilai eigen mendekati 1.
5.7 Ekstraksi Faktor dengan PCA
> PCA = principal(r = USArrests_cor, nfactors = 2, rotate = "varimax")
> PCA$communality
Murder Assault UrbanPop Rape
0.8853816 0.8785149 0.9459401 0.7601701 PCA diatas menunjukkan nilai komunalitas setiap variabel. Variabel dikatakan dapat mnejelaskan faktor dengan baik jika memiliki nilai komunalitas lebih dari 0.5. Jika nilai komunalitas tinggi (mendekati 1) menunjukkan bahwa sebagian besar variasinya dijelaskan oleh faktor faktor yang dihasilkan. Secara keseluruhan, dapat dilihat bahwa komunalitas setiap variabel tinggi (mendekati 1) sehingga menunjukkan bahwa ekstraksi dengan PCA cocok dalam analisis ini.
5.8 Pendekatan Nilai Eigen
> for (eg in USArrests_eig$values) {
+ print(eg)
+ }
[1] 2.480242
[1] 0.9897652
[1] 0.3565632
[1] 0.1734301Berdasarkan hasil yang ada, terdapat 2 nilai eigen yang lebih besar dari 1 atau mendekati 1 maka dapat ditentukan bahwa jumlah komponen utama adalah sebanyak 2.
5.9 Koefisien Komponen Utama
> pr.out <- prcomp(x = USArrests[,c(-5)],center = TRUE, scale. = TRUE)
> pr.out
Standard deviations (1, .., p=4):
[1] 1.5748783 0.9948694 0.5971291 0.4164494
Rotation (n x k) = (4 x 4):
PC1 PC2 PC3 PC4
Murder -0.5358995 -0.4181809 0.3412327 0.64922780
Assault -0.5831836 -0.1879856 0.2681484 -0.74340748
UrbanPop -0.2781909 0.8728062 0.3780158 0.13387773
Rape -0.5434321 0.1673186 -0.8177779 0.08902432
> summary(pr.out)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.5749 0.9949 0.59713 0.41645
Proportion of Variance 0.6201 0.2474 0.08914 0.04336
Cumulative Proportion 0.6201 0.8675 0.95664 1.00000Dari output yang ada dapat ditentukan jumlah komponen utama berdasarkan pendekatan proporsi kumulatif sebanyak 2, karena 2 komponen utama telah dapat mewakili sebanyak 86.75% keragaman yang ada dari proporsi kumulatif semua komponen utama. Proporsi keragaman bisa dianggap mewakili total keragaman jika proporsi kumulatifnya diatas 75% (Menurut Morison 1976 komponen utama yang memiliki proporsi kumulatif sekitar 75%).
5.10 Menghitung Persamaan Komponen Utama
> pr.out$rotation
PC1 PC2 PC3 PC4
Murder -0.5358995 -0.4181809 0.3412327 0.64922780
Assault -0.5831836 -0.1879856 0.2681484 -0.74340748
UrbanPop -0.2781909 0.8728062 0.3780158 0.13387773
Rape -0.5434321 0.1673186 -0.8177779 0.08902432Dilihat dari output diatas, persamaan komponen utama yang terbentuk adalah =
PC1 = − 0.54Murder −0.58Assault −0.28UrbanPop −0.54Rape
Pada PC1 terlihat bahwa koefisien yang paling besar adalah milik
Murder, Assault, dan Rape. Maka
dapat dikatakan bahwa pada skala nilai PC1, negara dengan nilai PC1 yang
rendah cenderung memiliki tingkat kejahatan kekerasan yang lebih tinggi.
Komponen ini dapat dinamakan komponen jenis kejahatan.
PC2 = − 0.42Murder +0.19Assault −0.87UrbanPop −0.16Rape
Pada PC2 terlihat bahwa koefisien yang paling besar adalah milik
Assault. Maka dapat dikatakan bahwa pada skala nilai PC2
tampaknya menangkap pola yang berkaitan dengan tingkat populasi
perkotaan dan hubungannya dengan kejahatan. Jika PC2 yang lebih tinggi
kemungkinan memiliki tingkat populasi perkotaan yang lebih rendah dengan
tingkat Assault yang lebih tinggi. Komponen ini dapar
dinamakan banyaknya populasi wilayah perkotaan.
5.11 Rekontruksi Data
> head(pr.out$x[,1:2])
PC1 PC2
Alabama -0.9756604 -1.1220012
Alaska -1.9305379 -1.0624269
Arizona -1.7454429 0.7384595
Arkansas 0.1399989 -1.1085423
California -2.4986128 1.5274267
Colorado -1.4993407 0.9776297Hasil diatas dapat menunjukkan nilai-nilai dari dua komponen utama
pertama yaitu PC1 dan PC2. Nilai negatif pada PC1 untuk negara bagian
seperti Alabama, Alaska, dan California menunjukkan bahwa mereka
memiliki tingkat variabel terkait kejahatan kekerasan yang lebih tinggi,
mengingat PC1 berkaitan erat dengan variabel
Murder, Assault, dan Rape. Sedangkan, nilai positif pada
PC2 untuk negara bagian seperti California dan Colorado menunjukkan
bahwa mereka memiliki populasi perkotaan (UrbanPop) yang lebih tinggi,
karena PC2 sangat dipengaruhi oleh variabel UrbanPop. Jadi,
negara bagian dengan nilai PC1 yang rendah dan nilai PC2 yang tinggi,
seperti California, cenderung memiliki populasi perkotaan yang besar dan
tingkat kejahatan yang relatif tinggi.
Plot PCA ini menunjukkan distribusi negara bagian di Amerika Serikat
berdasarkan beberapa variabel yang terikat dengan tingkat urbanisasi dan
kriminalitas yaitu mencakup variabel “UrbanPop” (populasi urban), “Rape”
(pemerkosaan), “Assault” (serangan), dan “Murder” (pembunuhan). Sumbu
horizontal (Dim1) menjelaskan 62% variasi data, sedangkan sumbu vertikal
(Dim2) menjelaskan 24,7% variasi. Ini berarti kedua dimensi ini
menangkap sekitar 86,7% dari informasi dalam data, sehingga visualisasi
ini cukup mewakili.
6 KESIMPULAN
Berdasarkan hasil analisis yang telah dilakukan, dapat disimpulkan bahwa dari 4 variabel tereduksi menjadi 2 variabel utama yang mempengaruhi tingkat ingkat urbanisasi dan kriminalitas pada tiap bagian di Amerika Serikat. 2 komponen utama tersebut adalah variabel Murder dan Assult, namun tetap menggambarkan keragaman data. 2 komponen utama tersebut telah mewakili dari 2 sebanyak 86.75% keragaman yang ada.
Negara bagian seperti Alabama, Alaska, dan California menunjukkan
bahwa mereka memiliki tingkat variabel terkait kejahatan kekerasan yang
lebih tinggi karena berikatan dengan variabel tingkat kejahatan
yaituMurder, Assault, dan Rape. Sedangkan pada negara yang
memiliki variabel tingkat kejahatan rendah namun memiliki populasi
perkotaan yang besar juga cenderung memiliki tingkat kejahatan yang
relatif tinggi seperti pada negara California dan Arizona,
Beberapa variabel, seperti Rape dan UrbanPop memiliki kontribusi rendah terhadap faktor faktor utama, menunjukkan variabel ini mungkin kurang relevan untuk model atau memiliki hubungan yang lemah dengan faktor-faktor signifikan yang dihasilkan.
7 SARAN
Adapun saran dalam penelitian ini:
Melakukan penelitian dengan uji yang lain untuk membuktikkan apakah hasil analisis dengan metode Analisis Faktor dan PCA akan sama dengan hasil analisis dengan uji lain seperti Cluster
Meneliti variabel-variabel yang berbeda. Hal ini bertujuan untuk mendapatkan pemahaman yang lebih luas tentang topik penelitian. Sehingga dapat diketahui faktor-faktor apa saja yang mungkin mempengaruhi tingkat kejahatan di Amerika Serikat.
8 DAFTAR PUSTAKA
- Ir. Sigit Nugroho, M. P. (2008). Statistika Multivariat Terapan. Bengkulu: UNIB PRess.
- Johnson dan Wichern. (2007). Applied Multivariate Statistical Analysis. Edisi keenam. Pearson Prentice Hall.
- Rais, M., Goejantoro, R., & Prangga, S. (2021). Optimalisasi K-Means Cluster dengan Principal Component Analysis pada Pengelompokan Kabupaten/Kota di Pulau Kalimantan Berdasarkan Indikator Tingkat Pengangguran Terbuka. Jurnal EKSPONENSIAL, 12(2), 129–136. https://jurnal.fmipa.unmul.ac.id/index.php/exponensial/article/view/805
- Nasution, M. Z. (2019). Penerapan Principal Component Analysis (PCA) dalam Penentuan Faktor Dominan yang Mempengaruhi Prestasi Belajar Siswa (Studi Kasus: SMK Raksana 2 Medan). Jurnal Teknologi Informasi, 3(1), 41–48. http://jurnal.una.ac.id/index.php/jurti/article/view/686/0
- Suhartono, 200, Analisis Data Statistik dengan R, Edisi Pertama, Yogyakarta: Graha Ilmu.
- Jolliffe, I. T. (2002). Principal Component Analysis (2nd ed.). Springer Series in Statistics.
- Sumber data: https://www.kaggle.com/datasets/halimedogan/usarrests?resource=download