# Pendahuluan

### Dalam analisis ini dilakukan analisis statistik multivariat pada dataset Titanic dengan menggunakan empat variabel numerik, yaitu Age, SibSp, Parch, dan Fare. Variabel-variabel tersebut dipilih karena mencerminkan karakteristik demografis serta kondisi ekonomi penumpang Titanic.

### Analisis ini bertujuan untuk mengetahui hubungan antar variabel melalui correlation matrix, variance–covariance matrix, serta eigen value dan eigen vector.
# Import Data dan Pembersihan Data

titanic <- read.csv("Titanic-Dataset.csv")
str(titanic)
## 'data.frame':    891 obs. of  12 variables:
##  $ PassengerId: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Survived   : int  0 1 1 1 0 0 0 0 1 1 ...
##  $ Pclass     : int  3 1 3 1 3 3 1 3 3 2 ...
##  $ Name       : chr  "Braund, Mr. Owen Harris" "Cumings, Mrs. John Bradley (Florence Briggs Thayer)" "Heikkinen, Miss. Laina" "Futrelle, Mrs. Jacques Heath (Lily May Peel)" ...
##  $ Sex        : chr  "male" "female" "female" "female" ...
##  $ Age        : num  22 38 26 35 35 NA 54 2 27 14 ...
##  $ SibSp      : int  1 1 0 1 0 0 0 3 0 1 ...
##  $ Parch      : int  0 0 0 0 0 0 0 1 2 0 ...
##  $ Ticket     : chr  "A/5 21171" "PC 17599" "STON/O2. 3101282" "113803" ...
##  $ Fare       : num  7.25 71.28 7.92 53.1 8.05 ...
##  $ Cabin      : chr  "" "C85" "" "C123" ...
##  $ Embarked   : chr  "S" "C" "S" "S" ...
selected_vars <- titanic[, c("Age", "SibSp", "Parch", "Fare")]
data_final <- na.omit(selected_vars)
str(data_final)
## 'data.frame':    714 obs. of  4 variables:
##  $ Age  : num  22 38 26 35 35 54 2 27 14 4 ...
##  $ SibSp: int  1 1 0 1 0 0 3 0 1 1 ...
##  $ Parch: int  0 0 0 0 0 0 1 2 0 1 ...
##  $ Fare : num  7.25 71.28 7.92 53.1 8.05 ...
##  - attr(*, "na.action")= 'omit' Named int [1:177] 6 18 20 27 29 30 32 33 37 43 ...
##   ..- attr(*, "names")= chr [1:177] "6" "18" "20" "27" ...
summary(data_final)
##       Age            SibSp            Parch             Fare       
##  Min.   : 0.42   Min.   :0.0000   Min.   :0.0000   Min.   :  0.00  
##  1st Qu.:20.12   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:  8.05  
##  Median :28.00   Median :0.0000   Median :0.0000   Median : 15.74  
##  Mean   :29.70   Mean   :0.5126   Mean   :0.4314   Mean   : 34.69  
##  3rd Qu.:38.00   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.: 33.38  
##  Max.   :80.00   Max.   :5.0000   Max.   :6.0000   Max.   :512.33
### Data diimpor menggunakan fungsi read.csv(). Selanjutnya dipilih empat variabel numerik sesuai instruksi tugas. Baris data yang mengandung missing value dihapus menggunakan na.omit() agar analisis statistik dilakukan pada data yang lengkap dan akurat.
# Correlation Matrix

cor_matrix <- cor(data_final)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000
### Correlation matrix digunakan untuk melihat hubungan linier antar variabel. Nilai korelasi berada pada rentang -1 hingga 1. Nilai mendekati 0 menunjukkan hubungan yang lemah, sedangkan nilai mendekati ±1 menunjukkan hubungan yang kuat. Hasil menunjukkan bahwa hubungan antar variabel pada dataset Titanic cenderung lemah hingga sedang.
# Variance–Covariance Matrix

cov_matrix <- cov(data_final)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100
### Variance covariance matrix menunjukkan besar variasi masing-masing variabel serta hubungan antar variabel dalam satuan aslinya. Variabel Fare memiliki nilai varians paling besar, yang menandakan adanya perbedaan harga tiket yang signifikan antar penumpang.
# Eigen Value dan Eigen Vector

eigen_result <- eigen(cov_matrix)

# Eigen values
eigen_result$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
# Eigen vectors
eigen_result$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652
### Eigen value menunjukkan seberapa besar variasi data yang dapat dijelaskan oleh masing-masing komponen utama. Eigen vector menunjukkan kontribusi setiap variabel terhadap komponen tersebut. Eigen value pertama memiliki nilai terbesar, sehingga komponen utama pertama menjelaskan sebagian besar variasi data. Variabel Fare memberikan kontribusi paling besar terhadap komponen utama tersebut.
### Berdasarkan hasil analisis multivariat, dapat disimpulkan bahwa variabel Fare dan Age merupakan faktor utama yang menjelaskan variasi dalam dataset Titanic. Hubungan antar variabel relatif lemah hingga sedang, sehingga tidak terdapat masalah multikolinearitas yang signifikan. Analisis eigen menunjukkan bahwa sebagian besar informasi dalam data dapat direpresentasikan oleh satu atau dua komponen utama, sehingga metode reduksi dimensi seperti Principal Component Analysis (PCA) dapat diterapkan pada dataset ini.