data <- read.csv(file.choose(), stringsAsFactors = FALSE)
head(data)
data_pilih <- data[, c(“Age”, “SibSp”, “Parch”, “Fare”)]
data_clean <- data_pilih[complete.cases(data_pilih), ]
head(data_clean)
corr_matrix <- cor(data_clean) print(round(corr_matrix, 4))
Penjelasan hasil Correlation Matrix:
Korelasi tertinggi adalah antara SibSp dan Parch (sekitar 0.38), artinya semakin banyak saudara/pasangan yang dibawa, cenderung semakin banyak orang tua/anak yang ikut (hubungan positif sedang).
Age dan SibSp memiliki korelasi negatif sedang (-0.30), menunjukkan bahwa penumpang yang lebih tua cenderung bepergian dengan lebih sedikit saudara/pasangan.
Fare memiliki korelasi positif lemah dengan SibSp (0.13) dan Parch (0.20), mengindikasikan keluarga besar cenderung membayar tiket lebih mahal.
Age hampir tidak berkorelasi dengan Fare (0.09), artinya usia tidak memengaruhi harga tiket.
cov_matrix <- cov(data_clean) round(cov_matrix, 4)
Fare memiliki variansi paling besar (sekitar 2800), artinya harga tiket sangat bervariasi (ada tiket murah hingga yang sangat mahal).
Age variansi sekitar 211 (standar deviasi ~14.5 tahun), usia penumpang cukup tersebar (ada yang bayi hingga lanisa).
SibSp dan Parch variansinya kecil (<1), kebanyakan penumpang bepergian sendiri atau dengan beberapa (1–2) anggota keluarga saja.
eig <- eigen(cov_matrix) round(eig\(values, 4) round(eig\)vectors, 4)
Eigenvector = arah utama di mana data paling banyak tersebar
pc1 = 2802.56 → sangat besar sekali pc2 = 209.04 → kolom masih cukup besar pc3 = 0.94 → sangat kecil pc4 = 0.48 → sangat kecil Artinya: 2 komponen utama pertama sudah menangkap hampir semua informasi penting.
Eigenvectors menunjukkan “komposisi” setiap PC (arah variansi)
pc1 (eigenvalue terbesar): koefisien Fare ≈ 0.9996 → PC1 hampir sepenuhnya mewakili Fare (arah variansi terbesar = perbedaan harga tiket).
pc2: koefisien Age ≈ 0.9993 → PC2 hampir murni mewakili Age (arah kedua = perbedaan usia).
pc3 & pc4: lebih banyak dimuat oleh SibSp dan Parch (koefisien besar di -0.77 s/d 0.63) → ini arah “ukuran keluarga”, tapi pengaruhnya sangat kecil terhadap variansi total.
Data ini sangat didominasi oleh Fare (skala besar dan variansi tinggi), diikuti Age.
SibSp dan Parch punya hubungan sedang satu sama lain, tapi tidak terlalu memengaruhi variansi keseluruhan.