# Pendahuluan
### Dalam analisis ini dilakukan analisis statistik multivariat pada dataset Titanic dengan menggunakan empat variabel numerik, yaitu Age, SibSp, Parch, dan Fare. Variabel-variabel tersebut dipilih karena mencerminkan karakteristik demografis serta kondisi ekonomi penumpang Titanic.
### Analisis ini bertujuan untuk mengetahui hubungan antar variabel melalui correlation matrix, variance–covariance matrix, serta eigen value dan eigen vector.
# Import Data dan Pembersihan Data
titanic <- read.csv("Titanic-Dataset.csv")
str(titanic)
## 'data.frame': 891 obs. of 12 variables:
## $ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ...
## $ Survived : int 0 1 1 1 0 0 0 0 1 1 ...
## $ Pclass : int 3 1 3 1 3 3 1 3 3 2 ...
## $ Name : chr "Braund, Mr. Owen Harris" "Cumings, Mrs. John Bradley (Florence Briggs Thayer)" "Heikkinen, Miss. Laina" "Futrelle, Mrs. Jacques Heath (Lily May Peel)" ...
## $ Sex : chr "male" "female" "female" "female" ...
## $ Age : num 22 38 26 35 35 NA 54 2 27 14 ...
## $ SibSp : int 1 1 0 1 0 0 0 3 0 1 ...
## $ Parch : int 0 0 0 0 0 0 0 1 2 0 ...
## $ Ticket : chr "A/5 21171" "PC 17599" "STON/O2. 3101282" "113803" ...
## $ Fare : num 7.25 71.28 7.92 53.1 8.05 ...
## $ Cabin : chr "" "C85" "" "C123" ...
## $ Embarked : chr "S" "C" "S" "S" ...
selected_vars <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
data_final <- na.omit(selected_vars)
str(data_final)
## 'data.frame': 714 obs. of 4 variables:
## $ Age : num 22 38 26 35 35 54 2 27 14 4 ...
## $ SibSp: int 1 1 0 1 0 0 3 0 1 1 ...
## $ Parch: int 0 0 0 0 0 0 1 2 0 1 ...
## $ Fare : num 7.25 71.28 7.92 53.1 8.05 ...
## - attr(*, "na.action")= 'omit' Named int [1:177] 6 18 20 27 29 30 32 33 37 43 ...
## ..- attr(*, "names")= chr [1:177] "6" "18" "20" "27" ...
summary(data_final)
## Age SibSp Parch Fare
## Min. : 0.42 Min. :0.0000 Min. :0.0000 Min. : 0.00
## 1st Qu.:20.12 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.: 8.05
## Median :28.00 Median :0.0000 Median :0.0000 Median : 15.74
## Mean :29.70 Mean :0.5126 Mean :0.4314 Mean : 34.69
## 3rd Qu.:38.00 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.: 33.38
## Max. :80.00 Max. :5.0000 Max. :6.0000 Max. :512.33
### Data diimpor menggunakan fungsi read.csv(). Selanjutnya dipilih empat variabel numerik sesuai instruksi tugas. Baris data yang mengandung missing value dihapus menggunakan na.omit() agar analisis statistik dilakukan pada data yang lengkap dan akurat.
# Correlation Matrix
cor_matrix <- cor(data_final)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
### Correlation matrix digunakan untuk melihat hubungan linier antar variabel. Nilai korelasi berada pada rentang -1 hingga 1. Nilai mendekati 0 menunjukkan hubungan yang lemah, sedangkan nilai mendekati ±1 menunjukkan hubungan yang kuat. Hasil menunjukkan bahwa hubungan antar variabel pada dataset Titanic cenderung lemah hingga sedang.
# Variance–Covariance Matrix
cov_matrix <- cov(data_final)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
### Variance covariance matrix menunjukkan besar variasi masing-masing variabel serta hubungan antar variabel dalam satuan aslinya. Variabel Fare memiliki nilai varians paling besar, yang menandakan adanya perbedaan harga tiket yang signifikan antar penumpang.
# Eigen Value dan Eigen Vector
eigen_result <- eigen(cov_matrix)
# Eigen values
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
# Eigen vectors
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
### Eigen value menunjukkan seberapa besar variasi data yang dapat dijelaskan oleh masing-masing komponen utama. Eigen vector menunjukkan kontribusi setiap variabel terhadap komponen tersebut. Eigen value pertama memiliki nilai terbesar, sehingga komponen utama pertama menjelaskan sebagian besar variasi data. Variabel Fare memberikan kontribusi paling besar terhadap komponen utama tersebut.
### Berdasarkan hasil analisis multivariat, dapat disimpulkan bahwa variabel Fare dan Age merupakan faktor utama yang menjelaskan variasi dalam dataset Titanic. Hubungan antar variabel relatif lemah hingga sedang, sehingga tidak terdapat masalah multikolinearitas yang signifikan. Analisis eigen menunjukkan bahwa sebagian besar informasi dalam data dapat direpresentasikan oleh satu atau dua komponen utama, sehingga metode reduksi dimensi seperti Principal Component Analysis (PCA) dapat diterapkan pada dataset ini.