---
title: "Tugas Mempelajari R & Rpubs"
author: "Ahmad Dhani Alfawwas"
date: "2026-02-03"
output: html_document
---
``` r
data <- read.csv("Titanic-Dataset.csv")
head(data)
## PassengerId Survived Pclass
## 1 1 0 3
## 2 2 1 1
## 3 3 1 3
## 4 4 1 1
## 5 5 0 3
## 6 6 0 3
## Name Sex Age SibSp Parch
## 1 Braund, Mr. Owen Harris male 22 1 0
## 2 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0
## 3 Heikkinen, Miss. Laina female 26 0 0
## 4 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0
## 5 Allen, Mr. William Henry male 35 0 0
## 6 Moran, Mr. James male NA 0 0
## Ticket Fare Cabin Embarked
## 1 A/5 21171 7.2500 S
## 2 PC 17599 71.2833 C85 C
## 3 STON/O2. 3101282 7.9250 S
## 4 113803 53.1000 C123 S
## 5 373450 8.0500 S
## 6 330877 8.4583 Q
str(data)
## 'data.frame': 891 obs. of 12 variables:
## $ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ...
## $ Survived : int 0 1 1 1 0 0 0 0 1 1 ...
## $ Pclass : int 3 1 3 1 3 3 1 3 3 2 ...
## $ Name : chr "Braund, Mr. Owen Harris" "Cumings, Mrs. John Bradley (Florence Briggs Thayer)" "Heikkinen, Miss. Laina" "Futrelle, Mrs. Jacques Heath (Lily May Peel)" ...
## $ Sex : chr "male" "female" "female" "female" ...
## $ Age : num 22 38 26 35 35 NA 54 2 27 14 ...
## $ SibSp : int 1 1 0 1 0 0 0 3 0 1 ...
## $ Parch : int 0 0 0 0 0 0 0 1 2 0 ...
## $ Ticket : chr "A/5 21171" "PC 17599" "STON/O2. 3101282" "113803" ...
## $ Fare : num 7.25 71.28 7.92 53.1 8.05 ...
## $ Cabin : chr "" "C85" "" "C123" ...
## $ Embarked : chr "S" "C" "S" "S" ...
data_select <- data[, c("Age", "SibSp", "Parch", "Fare")]
data_cleaned <- na.omit(data_select)
nrow(data_select)
## [1] 891
cor_matrix <- cor(data_cleaned)
cor_matrix
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Dari correlation matrix didapatkan output yang menunjukkan hubungan linear yaitu: - SibSp dan Parch memiliki korelasi positif sedang (0,3838),semakin banyak jumlah saudara atau pasangan yang ikut, cenderung semakin banyak pula jumlah orang tua atau anak yang ikut. - Age memiliki korelasi negatif lemah dengan SibSp (-0,3082) dan Parch (-0,1891), menunjukkan bahwa penumpang yang lebih tua cenderung bepergian dengan lebih sedikit anggota keluarga. - Fare memiliki korelasi positif lemah dengan Age (0,0961), SibSp (0,1383), dan Parch (0,2051), mengindikasikan bahwa harga tiket sedikit meningkat seiring bertambahnya usia dan jumlah anggota keluarga, meskipun hubungan tersebut tidak kuat.
cov_matrix <- cov(data_cleaned)
cov_matrix
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
Dari hasil yang keluar pada code cov(data_cleaned) menunjukkan: -Nilai diagonal merupakan varians masing-masing variabel. -Variabel Fare memiliki varians paling besar (2800,41), artinya penyebaran data harga tiket paling tinggi. -Varians Age (211,02) menunjukkan variasi usia penumpang cukup besar. -Kovarians SibSp dan Parch bernilai positif, menandakan jumlah saudara/pasangan dan orang tua/anak cenderung meningkat bersama. -Kovarians Age dengan SibSp dan Parch bernilai negatif, yang berarti penumpang lebih tua cenderung bepergian dengan lebih sedikit anggota keluarga. -Kovarians Fare dengan variabel lain bernilai positif, menunjukkan harga tiket cenderung meningkat seiring bertambahnya usia dan jumlah keluarga.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eigen_result$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
hasil eigen value di atas menunjukkan: -Eigen value terbesar adalah 2802,56, yang berarti komponen utama pertama menjelaskan variasi data paling besar. -Eigen value kedua sebesar 209,04 masih memberikan kontribusi variasi yang cukup signifikan. -Dua eigen value terakhir (0,94 dan 0,48) bernilai sangat kecil, sehingga kontribusinya terhadap variasi data relatif rendah. -Hal ini menunjukkan bahwa sebagian besar variasi data dijelaskan oleh satu hingga dua komponen utama, sedangkan komponen lainnya kurang berpengaruh.
hasil eigen vector di atas menunjukkan: