Import Data

Titanic=read.csv("C:/Users/ARIMBY/Downloads/Titanic-Dataset.csv", header = TRUE,sep = ",")
head(Titanic)
##   PassengerId Survived Pclass
## 1           1        0      3
## 2           2        1      1
## 3           3        1      3
## 4           4        1      1
## 5           5        0      3
## 6           6        0      3
##                                                  Name    Sex Age SibSp Parch
## 1                             Braund, Mr. Owen Harris   male  22     1     0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female  38     1     0
## 3                              Heikkinen, Miss. Laina female  26     0     0
## 4        Futrelle, Mrs. Jacques Heath (Lily May Peel) female  35     1     0
## 5                            Allen, Mr. William Henry   male  35     0     0
## 6                                    Moran, Mr. James   male  NA     0     0
##             Ticket    Fare Cabin Embarked
## 1        A/5 21171  7.2500              S
## 2         PC 17599 71.2833   C85        C
## 3 STON/O2. 3101282  7.9250              S
## 4           113803 53.1000  C123        S
## 5           373450  8.0500              S
## 6           330877  8.4583              Q

Berikut merupakan 6 data teratas dari data titanic yang sudah di input pada RStudio.

Ambil Kolom yang digunakan

Titanic_selected <- Titanic[, c("Age", "SibSp", "Parch", "Fare")]
head(Titanic_selected)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 6  NA     0     0  8.4583

Sesuai dengan perintah,variabel yang diambil yaitu “age”, “SibSp”, “Pearch”, “Fare”.

Cek Missing Value

colSums(is.na(Titanic_selected))
##   Age SibSp Parch  Fare 
##   177     0     0     0
head(Titanic_selected)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 6  NA     0     0  8.4583

Berdasarkan hasil pengecekan, variabel Age memiliki 177 data yang hilang, sedangkan variabel lainnya lengkap.Dengan tampilan data awal yang menunjukkan adanya nilai NA pada kolom Age.

Hapus baris yang ada missing value

Titanic_clean <- na.omit(Titanic_selected)
colSums(is.na(Titanic_clean))
##   Age SibSp Parch  Fare 
##     0     0     0     0
head(Titanic_clean)
##   Age SibSp Parch    Fare
## 1  22     1     0  7.2500
## 2  38     1     0 71.2833
## 3  26     0     0  7.9250
## 4  35     1     0 53.1000
## 5  35     0     0  8.0500
## 7  54     0     0 51.8625

menunjukkan bahwa setelah penghapusan data, tidak ada lagi missing value.

Correlation Matrix

cor_matrix <- cor(Titanic_clean)
cor_matrix
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Positif (+) → hubungan searah, Negatif (–) → hubungan berlawanan, Mendekati 0 → hubungan lemah,

Hubungan paling kuat terdapat antara SibSp dan Parch, sedangkan variabel Age tidak memiliki hubungan yang kuat dengan variabel lainnya.

Variance-Covariance Matrix

cov_matrix <- cov(Titanic_clean)
cov_matrix
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100

Fare memiliki varians paling besar, diikuti oleh Age, sedangkan SibSp dan Parch memiliki varians yang relatif kecil.

Eigen Value dan Eigen Vector

eigen_result <- eigen(cor(Titanic_clean))
eigen_result$values
## [1] 1.6367503 1.1071770 0.6694052 0.5866676

Nilai eigen menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama.

eigen_result$vectors
##            [,1]       [,2]        [,3]        [,4]
## [1,]  0.4388714 -0.5962415  0.56095237  0.37043268
## [2,] -0.6250770  0.0732461  0.05500006  0.77517016
## [3,] -0.5908590 -0.1774532  0.60558695 -0.50265342
## [4,] -0.2599159 -0.7795136 -0.56175785 -0.09607493

Eigen vector menunjukkan bobot kontribusi masing-masing variabel (Age, SibSp, Parch, Fare) pada setiap komponen utama.