==========================================================

Import File

==========================================================

import library agar dapat membaca file csv

library(readr)

titanic <- read_csv(“Titanic-Dataset.csv”)

membaca struktur file titanic tersebut

str(titanic)

==========================================================

Membersihkan Missing Value

==========================================================

data_selected <- titanic[, c(“Age”, “SibSp”, “Parch”, “Fare”)]

cek apakah memiliki missing value

sum(is.na(data_selected))

hapus baris yang berisikan missing value

data_clean <- na.omit(data_selected)

cek jumlah data

dim(data_clean)

melihat beberapa data

head(data_clean)

==========================================================

Correlation Matrix

==========================================================

cor_matrix <- cor(data_clean)

cor_matrix

Kolom Age menunjukkan usia penumpang

Kolom SibSp menunjukkan jumlah saudara kandung dan/atau pasangan yang ikut

Kolom Parch menunjukkan jumlah orang tua dan/atau anak yang ikut penumpang

Kolom Fare menunjukkan harga tiket yang dibayar oleh penumpang untuk perjalanan Titanic tersebut

Penjelasan korelasi setiap kolom:

Age - SibSp (-0,308)

Usia memiliki relasi negatif sedang terhadap jumlah saudara atau pasangan yang ikut,

hal ini berarti semakin tua penumpang maka cenderung semakin sedikit jumlah saudara/pasangan yang ikut

Age - Parch (-0,189)

Usia memiliki relasi negatif lemah terhadap jumlah orang tua/anak yang ikut dalam perjalanan,

sehingga kolom Age dan Parch tidak memiliki pengaruh yang signifikan

Age - Fare (0,096)

Usia dan harga memiliki korelasi positif sangat lemah,

hal ini berarti bahwa harga tiket tidak dipengaruhi oleh usia

SibSp - Parch (0,384)

Memiliki relasi positif sedang, di mana penumpang yang mengajak saudara/pasangan

biasanya juga membawa anak/orang tuanya

SibSp - Fare (0,138)

Memiliki korelasi yang lemah, di mana semakin banyak saudara/pasangan yang ikut

maka harga tiket akan cenderung sedikit lebih mahal

Parch - Fare (0,205)

Memiliki korelasi positif lemah, di mana penumpang dengan orang tua/anak

cenderung membayar tiket sedikit lebih mahal.

Namun perlu diingat bahwa korelasi yang dimiliki masih tergolong lemah

==========================================================

Variance-Covariance Matrix

==========================================================

variance-covariance matrix

cov_matrix <- cov(data_clean)

cov_matrix

1. Variance ditunjukkan oleh nilai pada diagonal utama masing-masing variabel

Age (211,02) memiliki penyebaran yang cukup besar,

di mana variasi usia antar penumpang cukup beragam

SibSp (0,8645) memiliki nilai penyebaran yang kecil,

Parch (0,7281) memiliki nilai penyebaran yang kecil,

hal ini menunjukkan bahwa jumlah parents/child yang ikut tidak jauh berbeda

Fare (2800,41) hal ini menunjukkan rentang harga tiket yang sangat besar,

dari tiket murah hingga sangat mahal

2. Covariance ditunjukkan oleh nilai di luar diagonal utama

Age - SibSp (-4,16)

Hal ini menunjukkan bahwa penumpang yang lebih tua

cenderung memiliki lebih sedikit saudara/pasangan yang ikut

Age - Parch (-2,34)

Hal ini menunjukkan bahwa usia yang lebih tinggi

cenderung berasosiasi dengan sedikit orang tua/anak yang ikut

Age - Fare (73,85)

Hal ini menunjukkan bahwa penumpang yang lebih tua

membayar tiket cenderung sedikit lebih mahal,

meskipun hubungan ini tidak terlalu kuat

SibSp - Parch (0,305)

Hal ini menunjukkan bahwa penumpang yang memiliki saudara atau pasangan

biasanya juga membawa orang tua atau anak,

biasanya ini mencerminkan perjalanan keluarga

SibSp - Fare (6,81)

Hal ini menunjukkan bahwa penumpang yang bepergian

dengan saudara atau pasangan cenderung membayar tiket yang lebih mahal

Parch - Fare (9,26)

Hal ini menunjukkan bahwa penumpang yang bepergian

bersama orang tua atau anak cenderung membayar tiket yang lebih mahal

==========================================================

Eigen Value & Eigen Vector

==========================================================

Eigen decomposition

eigen_result <- eigen(cov_matrix)

Eigen values

eigen_result$values

Eigen vectors

eigen_result$vectors

Eigen value yang dimiliki berdasarkan hasil variance-covariance sebelumnya

yang kemudian dihitung dengan kode di atas adalah:

Eigen value pertama dengan nilai 2802,56

Eigen value kedua dengan nilai 209,038

Eigen value ketiga dengan nilai 0,943

Eigen value keempat dengan nilai 0,478

Dalam kolom 1 / komponen 1 memiliki arah variasi terbesar

hampir seluruhnya ditentukan oleh Fare

Dalam kolom 2 / komponen 2 memiliki arah variasi terbesar oleh Age

Dalam kolom 3 / komponen 3 arah yang dibentuk oleh SibSp dan Parch

Dalam kolom 4 / komponen 4 arah tersebut membedakan jumlah saudara/pasangan

dan orang tua/anak, namun tidak penting karena eigen value-nya kecil

Sehingga dapat disimpulkan bahwa komponen utama pertama didominasi oleh variabel Fare,

komponen kedua oleh Age, sedangkan komponen selanjutnya merepresentasikan

struktur keluarga penumpang.

Komponen dengan eigen value kecil memiliki kontribusi variasi yang rendah

dan dapat diabaikan.