==========================================================
Import File
==========================================================
import library agar dapat membaca file csv
library(readr)
titanic <- read_csv(“Titanic-Dataset.csv”)
membaca struktur file titanic tersebut
str(titanic)
==========================================================
Membersihkan Missing Value
==========================================================
data_selected <- titanic[, c(“Age”, “SibSp”, “Parch”, “Fare”)]
cek apakah memiliki missing value
sum(is.na(data_selected))
hapus baris yang berisikan missing value
data_clean <- na.omit(data_selected)
cek jumlah data
dim(data_clean)
melihat beberapa data
head(data_clean)
==========================================================
Correlation Matrix
==========================================================
cor_matrix <- cor(data_clean)
cor_matrix
Kolom SibSp menunjukkan jumlah saudara kandung dan/atau pasangan
yang ikut
Penjelasan korelasi setiap kolom:
Age - SibSp (-0,308)
Usia memiliki relasi negatif sedang terhadap jumlah saudara atau
pasangan yang ikut,
hal ini berarti semakin tua penumpang maka cenderung semakin sedikit
jumlah saudara/pasangan yang ikut
Age - Parch (-0,189)
Usia memiliki relasi negatif lemah terhadap jumlah orang tua/anak
yang ikut dalam perjalanan,
sehingga kolom Age dan Parch tidak memiliki pengaruh yang
signifikan
Age - Fare (0,096)
Usia dan harga memiliki korelasi positif sangat lemah,
hal ini berarti bahwa harga tiket tidak dipengaruhi oleh usia
SibSp - Parch (0,384)
Memiliki relasi positif sedang, di mana penumpang yang mengajak
saudara/pasangan
biasanya juga membawa anak/orang tuanya
SibSp - Fare (0,138)
Memiliki korelasi yang lemah, di mana semakin banyak
saudara/pasangan yang ikut
maka harga tiket akan cenderung sedikit lebih mahal
Parch - Fare (0,205)
Memiliki korelasi positif lemah, di mana penumpang dengan orang
tua/anak
cenderung membayar tiket sedikit lebih mahal.
Namun perlu diingat bahwa korelasi yang dimiliki masih tergolong
lemah
==========================================================
Variance-Covariance Matrix
==========================================================
variance-covariance matrix
cov_matrix <- cov(data_clean)
cov_matrix
1. Variance ditunjukkan oleh nilai pada diagonal utama masing-masing
variabel
Age (211,02) memiliki penyebaran yang cukup besar,
di mana variasi usia antar penumpang cukup beragam
SibSp (0,8645) memiliki nilai penyebaran yang kecil,
Parch (0,7281) memiliki nilai penyebaran yang kecil,
dari tiket murah hingga sangat mahal
2. Covariance ditunjukkan oleh nilai di luar diagonal utama
Age - SibSp (-4,16)
cenderung memiliki lebih sedikit saudara/pasangan yang ikut
Age - Parch (-2,34)
cenderung berasosiasi dengan sedikit orang tua/anak yang ikut
Age - Fare (73,85)
membayar tiket cenderung sedikit lebih mahal,
meskipun hubungan ini tidak terlalu kuat
SibSp - Parch (0,305)
biasanya juga membawa orang tua atau anak,
biasanya ini mencerminkan perjalanan keluarga
SibSp - Fare (6,81)
dengan saudara atau pasangan cenderung membayar tiket yang lebih
mahal
Parch - Fare (9,26)
bersama orang tua atau anak cenderung membayar tiket yang lebih
mahal
==========================================================
Eigen Value & Eigen Vector
==========================================================
Eigen decomposition
eigen_result <- eigen(cov_matrix)
Eigen values
eigen_result$values
Eigen vectors
eigen_result$vectors
Eigen value yang dimiliki berdasarkan hasil variance-covariance
sebelumnya
yang kemudian dihitung dengan kode di atas adalah:
Eigen value pertama dengan nilai 2802,56
Eigen value kedua dengan nilai 209,038
Eigen value ketiga dengan nilai 0,943
Eigen value keempat dengan nilai 0,478
Dalam kolom 1 / komponen 1 memiliki arah variasi terbesar
hampir seluruhnya ditentukan oleh Fare
Dalam kolom 2 / komponen 2 memiliki arah variasi terbesar oleh
Age
Dalam kolom 3 / komponen 3 arah yang dibentuk oleh SibSp dan
Parch
Dalam kolom 4 / komponen 4 arah tersebut membedakan jumlah
saudara/pasangan
dan orang tua/anak, namun tidak penting karena eigen value-nya
kecil
Sehingga dapat disimpulkan bahwa komponen utama pertama didominasi
oleh variabel Fare,
komponen kedua oleh Age, sedangkan komponen selanjutnya
merepresentasikan
struktur keluarga penumpang.
Komponen dengan eigen value kecil memiliki kontribusi variasi yang
rendah
dan dapat diabaikan.