Import Data dan Hapus Missing Values

Langkah pertama yang dilakukan adalah dengan memuat dataset Titanic yang memiliki variabel, seperti Age, SibSp, Parch, dan Fare. Setelahnya, dilakukan penghapusan missing value agar analisis statistik dapat dilakukan secara akurat.

# Memuat dataset
df <- read.csv("Titanic-Dataset.csv")
data_selected <- df[,c("Age", "SibSp", "Parch", "Fare")]

# Mengatasi missing values
data_clean <- na.omit(data_selected)

dim(data_clean)
## [1] 714   4
head(data_clean)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625

Analisis Statistik

a) Correlation Matrix

Penggunaan matriks ini digunakan untuk melihat hubungan linier antar variabel.

cor_matrix <- cor(data_clean)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Penjelasan:

Hubungan variabel terkuat yang ada pada dataset adalah antara SipSp dan Parch dengan nilai sekitar 0,38. Artinya, penumpang yang membawa pasangan/saudara cenderung membawa anggota keluarga yang lain.

Sedangkan, hubungan variabel yang bernilai negatif seperti Age dengan SipSp, dapat diartikan bahwa penumpang yang lebih tua cenderung membawa lebih sedikit pasangan/saudara dibanding penumpang muda.

b) Variance-Covariance Matrix

Matriks ini berfungsi untuk menunjukkan sebaran data (varians) pada diagonal utama dan hubungan antar variabel dalam satuan aslinya.

cov_matrix <- cov(data_clean)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Penjelasan:

Variabel Fare memiliki varians yang sangat besar (kurang lebih 2800), menunjukkan bahwa harga tiket memiliki rentang yang sangat lebar dan sangat bervariasi antar penumpang.

Adapun, nilai positif antara Fare dan SibSp/Parch menunjukkan adanya kecenderungan harga tiket yang meningkat seiring dengan bertambahnya jumlah anggota keluarga yang dibawa.

c) Eigen Value dan Eigen Vector

Analisis ini digunakan untuk melihat arah variansi maksimal dalam data. Selain itu, biasanya juga digunakan sebagai dasar Principal Component Analysis (PCA).

eigen_res <- eigen(cov_matrix)

print("Eigen Values:")
## [1] "Eigen Values:"
eigen_res$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
print("Eigen Vectors:")
## [1] "Eigen Vectors:"
eigen_res$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Penjelasan:

Nilai eigen pertama sangat dominan (paling besar). Artinya, Komponen Utama pertama sudah mampu untuk merangkum sebagian besar informasi atau keragaman dari data tersebut.

Dari hasil vektor eigen yang pertama, variabel Fare memiliki nilai bobot yang paling besar. Hal ini menunjukkan bahwa faktor pembeda yang paling besar antar penumpang pada dataset Titanic ini adalah harga tiket yang mereka bayar.

Kesimpulan

Berdasarkan analisis di atas, dapat disimpulkan bahwa struktur data penumpang Titanic pada variabel yang diuji sangat didominasi oleh variasi harga tiket (Fare). Selain itu, terdapat hubungan sosial yang cukup jelas antara jumlah saudara dan jumlah orang tua/anak yang dibawa oleh penumpang.