Pendahuluan

Titanic dataset seringkali digunakan dalam pembelajaran statistika. Dataset ini berisi beberapa informasi atau variabel seperti Nama, usia, jumlah saudara dan harga tiket penumpang. Pada analisis ini difokuskan empat variabel numerik yaitu “Age”: usia penumpang, “SibSp”: jumlah saudara atau pasangan di kapal,“Parch”: jumlah orang tua atau anak di kapal, “Fare”: harga tiket dengan tujuan mengetahui hubungan antar variabel menggunakan matriks korelasi, matriks varians dan kovarians, eigen value dan eigen vektor.

Import dan cleaning data

# Membaca dataset
titanic <- read.csv("Titanic-Dataset.csv")

# Memilih kolom yang digunakan
data_selected <- titanic[, c("Age", "SibSp", "Parch", "Fare")]

# Menghapus baris dengan missing value
data_clean <- na.omit(data_selected)

# Melihat ringkasan data setelah dibersihkan
summary(data_clean)
##       Age            SibSp            Parch             Fare       
##  Min.   : 0.42   Min.   :0.0000   Min.   :0.0000   Min.   :  0.00  
##  1st Qu.:20.12   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:  8.05  
##  Median :28.00   Median :0.0000   Median :0.0000   Median : 15.74  
##  Mean   :29.70   Mean   :0.5126   Mean   :0.4314   Mean   : 34.69  
##  3rd Qu.:38.00   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.: 33.38  
##  Max.   :80.00   Max.   :5.0000   Max.   :6.0000   Max.   :512.33

Tidak dilakukan reset indeks setelah penghapusan nilai kosong karena indeks tidak berpengaruh terhadap proses analisis statistik yang dilakukan.

Analisis Statistik

cor_matrix <- cor(data_clean)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Matriks korelasi berguna untuk menunjukkan hubungan linear antar variabel dengan rentang -1 sampai 1. Contoh hasil analisis hubungan Age dan Fare, angkanya kecil yang berarti usia tidak terlalu menentukan harga tiket. Untuk seluruh korelasi menunjukkan nilai hubungan yang lemah hingga sedang. Hal ini menandakan bahwa tidak terdapat hubungan linear yang sangat kuat antara usia, jumlah keluarga, dan harga tiket.

cov_matrix <- cov(data_clean)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Nilai diagonal pada matriks menunjukkan varians masing-masing variabel, sedangkan nilai di luar diagonal menunjukkan kovarians antar variabel. Berdasarkan hasil yang diperoleh, Variabel Fare memiliki varians paling besar, yang menandakan bahwa harga tiket memiliki penyebaran data yang sangat tinggi dibandingkan variabel lainnya.

eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
eigen_result$vectorscov_matrix <- cov(data_clean)

Eigen value menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama. Eigen value terbesar menandakan komponen yang paling dominan. Hasil analisis menunjukkan bahwa variasi data paling banyak dipengaruhi oleh variabel Fare, yang sejalan dengan hasil varians sebelumnya.

Kesimpulan

Hasil analisis yang telah dilakukan menunjukkan bahwa ada variasi yang berbeda di antara variabel numerik dalam dataset Titanic. Matriks korelasi memberikan pemahaman awal tentang seberapa kuat hubungan antara variabel, sedangkan matriks varians-kovarians mengindikasikan penyebaran dan keterkaitan variabel secara numerik. Penggunaan nilai eigen dan vektor eigen membantu untuk memahami bagaimana variasi data diorganisir serta mengidentifikasi komponen utama yang paling berperan dalam menjelaskan variasi tersebut. Temuan ini dapat digunakan sebagai dasar untuk analisis lebih lanjut,