TUGAS 1 ANALISIS MALTIVARIAT CREDIT CARD

Pendahuluan

Analisis multivariat adalah metode statistik yang digunakan untuk memahami hubungan antara banyak variabel dalam satu waktu. Jadi, kalau dalam analisis biasa kita cuma melihat hubungan dua variabel (misalnya tinggi badan dan berat badan), dalam analisis multivariat kita bisa melihat lebih banyak faktor sekaligus, misalnya tinggi badan, berat badan, pola makan, dan aktivitas fisik. Teknik ini sering dipakai dalam berbagai bidang, seperti ekonomi, kesehatan, psikologi, dan data science. Beberapa contoh metode analisis multivariat yang sering digunakan, misalnya:

Regresi berganda, yang membantu memprediksi satu hal berdasarkan beberapa faktor lainnya (misalnya, harga rumah dipengaruhi oleh lokasi, luas tanah, dan jumlah kamar).
Analisis faktor, yang mencari pola tersembunyi dalam data (misalnya, melihat faktor apa saja yang memengaruhi kepuasan pelanggan).
Analisis klaster, yang mengelompokkan data berdasarkan kesamaan (misalnya, mengelompokkan pelanggan berdasarkan kebiasaan belanja mereka).
PCA (Principal Component Analysis), yang digunakan untuk menyederhanakan data yang kompleks tanpa kehilangan banyak informasi.

Intinya, analisis multivariat membantu kita melihat gambaran besar dari data yang rumit, sehingga bisa diambil keputusan yang lebih tepat dan berbasis data. Pada tugas ini, kita akan menganalisis dataset yang berisi data calon pemegang kartu kredit. Proses analisis yang akan dilakukan meliputi:Menyusun matriks data, Menghitung Variance-Covariance Matrix, Menghitung Correlation Matrix, Menentukan Eigenvalues dan Eigenvectors.

Menyusun Data dalam Bentuk Matriks

Tahap awal yang dilakukan adalah mengonversi dataset ke dalam format matriks di R. Dataset ini terdiri dari nilai numerik dengan 5 baris dan 6 kolom, yang mencakup berbagai atribut seperti Age, Debt, YearsEmployed, CreditScore, ZipCode, dan Income.

# Membuat vektor data
values <- c(
  30.83, 0.000, 1.25, 1, 202, 0,
  58.67, 4.460, 3.04, 6, 43, 560,
  24.50, 0.500, 1.50, 0, 280, 824,
  27.83, 1.540, 3.75, 5, 100, 3,
  20.17, 5.625, 1.71, 0, 120, 0
)

# Mengonversi vektor menjadi matriks
data <- matrix(values, nrow = 5, byrow = TRUE)

# Menetapkan nama kolom
attributes(data)$dimnames <- list(NULL, c("Age", "Debt", "YearsEmployed", "CreditScore", "ZipCode", "Income"))

# Menampilkan data
data

##        Age  Debt YearsEmployed CreditScore ZipCode Income
## [1,] 30.83 0.000          1.25           1     202      0
## [2,] 58.67 4.460          3.04           6      43    560
## [3,] 24.50 0.500          1.50           0     280    824
## [4,] 27.83 1.540          3.75           5     100      3
## [5,] 20.17 5.625          1.71           0     120      0

Variance-Covariance Matrix Variance-Covariance Matrix digunakan untuk mengukur sejauh mana setiap variabel menyebar dari rata-ratanya serta bagaimana hubungan antar variabel dalam dataset.

Tahapan yang dilakukan dalam proses ini meliputi:

Menentukan nilai rata-rata dari setiap kolom.
Melakukan centering data dengan mengurangkan setiap nilai dalam kolom dengan rata-rata kolom tersebut.
Menghitung covariance matrix menggunakan rumus yang sesuai.

# Menghitung mean setiap kolom
means <- apply(data, 2, mean)

# Melakukan centering data dengan mengurangkan mean kolom
centered_data <- scale(data, center = means, scale = FALSE)

# Menghitung covariance matrix menggunakan fungsi bawaan
cov_matrix <- cov(centered_data)

# Menampilkan hasil covariance matrix
cat("Variance-Covariance Matrix:\n")

## Variance-Covariance Matrix:

print(cov_matrix)

##                       Age        Debt YearsEmployed CreditScore    ZipCode
## Age            231.361400    9.345663      6.999375       33.30  -831.0325
## Debt             9.345663    6.187675      0.605225        1.34  -161.4613
## YearsEmployed    6.999375    0.605225      1.182050        2.81   -73.2075
## CreditScore     33.300000    1.340000      2.810000        8.30  -207.0000
## ZipCode       -831.032500 -161.461250    -73.207500     -207.00  8612.0000
## Income        2046.972500 -112.313750    -42.775000       11.55 12109.2500
##                    Income
## Age             2046.9725
## Debt            -112.3137
## YearsEmployed    -42.7750
## CreditScore       11.5500
## ZipCode        12109.2500
## Income        151957.8000

Correlation Matrix

Correlation Matrix digunakan untuk mengukur seberapa kuat hubungan antara variabel-variabel dalam dataset dengan skala standar dari -1 hingga 1.

# Menggunakan fungsi bawaan untuk menghitung correlation matrix
cor_matrix <- cor(data)

# Menampilkan correlation matrix
cat("Correlation Matrix:\n")

## Correlation Matrix:

print(cor_matrix)

##                      Age       Debt YearsEmployed CreditScore    ZipCode
## Age            1.0000000  0.2470022     0.4232489  0.75990576 -0.5887359
## Debt           0.2470022  1.0000000     0.2237872  0.18698295 -0.6994434
## YearsEmployed  0.4232489  0.2237872     1.0000000  0.89711754 -0.7255806
## CreditScore    0.7599058  0.1869829     0.8971175  1.00000000 -0.7742466
## ZipCode       -0.5887359 -0.6994434    -0.7255806 -0.77424657  1.0000000
## Income         0.3452272 -0.1158264    -0.1009278  0.01028446  0.3347370
##                    Income
## Age            0.34522724
## Debt          -0.11582643
## YearsEmployed -0.10092775
## CreditScore    0.01028446
## ZipCode        0.33473701
## Income         1.00000000

Eigenvalues dan Eigenvectors

Eigenvalues dan Eigenvectors digunakan untuk memahami pola dalam data serta menentukan komponen utama dalam analisis multivariat.

# Menghitung eigenvalues dan eigenvectors menggunakan fungsi bawaan
eig_result <- eigen(cov_matrix)

# Mengekstrak eigenvalues dan eigenvectors
eig_values <- eig_result$values
eig_vectors <- eig_result$vectors

# Menampilkan hasil
cat("Eigenvalues:\n")

## Eigenvalues:

print(eig_values)

## [1] 1.529991e+05 7.738258e+03 7.494804e+01 4.551851e+00 4.419579e-12
## [6] 3.114202e-13

cat("Eigenvectors:\n")

## Eigenvectors:

print(eig_vectors)

##               [,1]         [,2]        [,3]         [,4]         [,5]
## [1,] -1.289707e-02 -0.131560133  0.97942701  0.134315337 -0.072164510
## [2,]  8.188149e-04 -0.019605573 -0.12793653  0.643339225 -0.503369496
## [3,]  3.179438e-04 -0.009024801 -0.01847413 -0.334972014 -0.857800240
## [4,]  3.494977e-05 -0.027135529  0.08386896 -0.675118146 -0.068810738
## [5,] -8.349361e-02  0.987380472  0.12816503  0.008883966 -0.029121428
## [6,] -9.964245e-01 -0.081052896 -0.02352452 -0.002084805  0.002684459
##              [,6]
## [1,]  0.000000000
## [2,] -0.562121863
## [3,]  0.389293791
## [4,] -0.729184634
## [5,] -0.027483850
## [6,]  0.001939676

Kesimpulan Analisis Matrik Statistik

Dari perhitungan Variance-Covariance Matrix, Correlation Matrix, dan Eigenvalues serta Eigenvectors, kita mendapatkan beberapa wawasan penting terkait hubungan antar variabel dalam dataset:

1. Variance-Covariance Matrix

Variabel Income memiliki varians tertinggi (151957.80), menunjukkan bahwa penyebaran data Income sangat besar dibandingkan variabel lain.
Covarians terbesar ditemukan antara ZipCode dan Income (12109.25), menandakan bahwa perubahan dalam ZipCode memiliki hubungan yang cukup kuat terhadap Income.
Beberapa variabel menunjukkan hubungan negatif, seperti ZipCode dan Age (-831.03), yang berarti ada kecenderungan bahwa semakin tinggi ZipCode, semakin rendah nilai Age dalam dataset ini.

2. Correlation Matrix

YearsEmployed dan CreditScore memiliki korelasi tertinggi (0.897), menunjukkan bahwa semakin lama seseorang bekerja, semakin tinggi skor kreditnya.
ZipCode dan CreditScore memiliki korelasi negatif tertinggi (-0.774), menandakan bahwa lokasi tempat tinggal (ZipCode) memiliki hubungan terbalik dengan skor kredit.
CreditScore dan Income memiliki korelasi yang sangat lemah (0.010), menunjukkan bahwa tingkat pendapatan tidak terlalu berpengaruh terhadap skor kredit seseorang dalam dataset ini.

3. Eigenvalues dan Eigenvectors

Komponen utama dalam dataset direpresentasikan oleh eigenvalue tertinggi (152999.1), yang menjelaskan sebagian besar variasi data.
Dua nilai eigen yang mendekati nol menunjukkan bahwa terdapat dua dimensi dalam dataset yang kurang signifikan dalam menjelaskan variasi data.
Income memiliki kontribusi terbesar dalam eigenvector pertama (-0.9964), diikuti oleh ZipCode dalam eigenvector kedua (0.9874). Ini menandakan bahwa kedua variabel tersebut memiliki pengaruh paling besar terhadap variasi data.

Kesimpulan Akhir

Secara keseluruhan:
✔ Income dan ZipCode memiliki dampak terbesar dalam variasi dataset.
✔ YearsEmployed dan CreditScore menunjukkan hubungan yang erat dalam mempengaruhi skor kredit seseorang.
✔ Hasil ini memberikan dasar yang kuat untuk analisis lanjutan seperti Principal Component Analysis (PCA) atau teknik lainnya yang digunakan dalam pemrosesan data multivariat.

R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.