Titanic dataset seringkali digunakan dalam pembelajaran statistika. Dataset ini berisi beberapa informasi atau variabel seperti Nama, usia, jumlah saudara dan harga tiket penumpang. Pada analisis ini difokuskan empat variabel numerik yaitu “Age”: usia penumpang, “SibSp”: jumlah saudara atau pasangan di kapal,“Parch”: jumlah orang tua atau anak di kapal, “Fare”: harga tiket dengan tujuan mengetahui hubungan antar variabel menggunakan matriks korelasi, matriks varians dan kovarians, eigen value dan eigen vektor.
# Membaca dataset
titanic <- read.csv("Titanic-Dataset.csv")
# Memilih kolom yang digunakan
data_selected <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
# Menghapus baris dengan missing value
data_clean <- na.omit(data_selected)
# Melihat ringkasan data setelah dibersihkan
summary(data_clean)
## Age SibSp Parch Fare
## Min. : 0.42 Min. :0.0000 Min. :0.0000 Min. : 0.00
## 1st Qu.:20.12 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.: 8.05
## Median :28.00 Median :0.0000 Median :0.0000 Median : 15.74
## Mean :29.70 Mean :0.5126 Mean :0.4314 Mean : 34.69
## 3rd Qu.:38.00 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.: 33.38
## Max. :80.00 Max. :5.0000 Max. :6.0000 Max. :512.33
Tidak dilakukan reset indeks setelah penghapusan nilai kosong karena indeks tidak berpengaruh terhadap proses analisis statistik yang dilakukan.
cor_matrix <- cor(data_clean)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Matriks korelasi berguna untuk menunjukkan hubungan linear antar variabel dengan rentang -1 sampai 1. Contoh hasil analisis hubungan Age dan Fare, angkanya kecil yang berarti usia tidak terlalu menentukan harga tiket. Untuk seluruh korelasi menunjukkan nilai hubungan yang lemah hingga sedang. Hal ini menandakan bahwa tidak terdapat hubungan linear yang sangat kuat antara usia, jumlah keluarga, dan harga tiket.
cov_matrix <- cov(data_clean)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Nilai diagonal pada matriks menunjukkan varians masing-masing variabel, sedangkan nilai di luar diagonal menunjukkan kovarians antar variabel. Berdasarkan hasil yang diperoleh, Variabel Fare memiliki varians paling besar, yang menandakan bahwa harga tiket memiliki penyebaran data yang sangat tinggi dibandingkan variabel lainnya.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_result$vectorscov_matrix <- cov(data_clean)
Eigen value menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama. Eigen value terbesar menandakan komponen yang paling dominan. Hasil analisis menunjukkan bahwa variasi data paling banyak dipengaruhi oleh variabel Fare, yang sejalan dengan hasil varians sebelumnya.
Hasil analisis yang telah dilakukan menunjukkan bahwa ada variasi yang berbeda di antara variabel numerik dalam dataset Titanic. Matriks korelasi memberikan pemahaman awal tentang seberapa kuat hubungan antara variabel, sedangkan matriks varians-kovarians mengindikasikan penyebaran dan keterkaitan variabel secara numerik. Penggunaan nilai eigen dan vektor eigen membantu untuk memahami bagaimana variasi data diorganisir serta mengidentifikasi komponen utama yang paling berperan dalam menjelaskan variasi tersebut. Temuan ini dapat digunakan sebagai dasar untuk analisis lebih lanjut,