| title: “Tugas Analisis Multivariat” |
| author: “Guntoro Satriaji” |
| NIM: “24031554103” |
| date: “10/02/2026” |
| output: html_document |
Analisis multivariat merupakan metode statistik yang digunakan untuk menganalisis hubungan antar lebih dari satu variabel secara simultan. Pada laporan ini, analisis dilakukan terhadap data penumpang Titanic untuk melihat hubungan antar variabel numerik yang berkaitan dengan karakteristik penumpang.
Dataset yang digunakan merupakan Titanic Dataset dengan beberapa variabel numerik yang relevan untuk analisis multivariat.
# Read data
data1 <- read_csv("Titanic_Dataset.csv")
# Menampilkan beberapa baris awal data
head(data1)
## # A tibble: 6 × 12
## PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin
## <dbl> <dbl> <dbl> <chr> <chr> <dbl> <dbl> <dbl> <chr> <dbl> <chr>
## 1 1 0 3 Braund… male 22 1 0 A/5 2… 7.25 <NA>
## 2 2 1 1 Cuming… fema… 38 1 0 PC 17… 71.3 C85
## 3 3 1 3 Heikki… fema… 26 0 0 STON/… 7.92 <NA>
## 4 4 1 1 Futrel… fema… 35 1 0 113803 53.1 C123
## 5 5 0 3 Allen,… male 35 0 0 373450 8.05 <NA>
## 6 6 0 3 Moran,… male NA 0 0 330877 8.46 <NA>
## # ℹ 1 more variable: Embarked <chr>
Pada tahap ini dilakukan pemilihan variabel numerik yang akan dianalisis serta penghapusan data yang mengandung nilai hilang (missing value).
# Seleksi kolom numerik
data2 <- select(data1, Age, SibSp, Parch, Fare)
# Mengecek jumlah missing value
sapply(data2, function(x) sum(is.na(x)))
## Age SibSp Parch Fare
## 177 0 0 0
# Menghapus baris dengan missing value
data3 <- na.omit(data2)
# Cek ulang missing value
sapply(data3, function(x) sum(is.na(x)))
## Age SibSp Parch Fare
## 0 0 0 0
Analisis korelasi digunakan untuk mengetahui kekuatan dan arah hubungan antar variabel numerik.
# Correlation plot
corrplot(
cor(data3),
addCoef.col = "white",
number.cex = 0.8,
number.digits = 1,
diag = TRUE
)
Berdasarkan hasil visualisasi korelasi, dapat disimpulkan bahwa:
Untuk melihat distribusi data dan signifikansi hubungan antar variabel, digunakan chart correlation dengan di sini menggunakan metode Kendall.
chart.Correlation(
data3,
histogram = TRUE,
method = "kendall"
)
Dari grafik di atas dapat diperoleh dua informasi utama:
Distribusi Data (Diagonal) Variabel SibSp, Parch, dan Fare tidak berdistribusi normal (skewed right), hasil ini mendukung penggunaan korelasi Kendall.
Signifikansi Hubungan (Bagian Atas) Tanda bintang (***) menunjukkan bahwa sebagian besar hubungan antar variabel signifikan secara statistik, terutama hubungan positif antara SibSp dan Parch, serta hubungan negatif antara Age dan SibSp.
Matriks variansi-kovariansi digunakan untuk melihat sebaran dan hubungan antar variabel dalam satuan aslinya.
# Variance-Covariance Matrix
var(data3)
## Age SibSp Parch Fare
## Age 211.019125 -4.1633339 -2.3441911 73.849030
## SibSp -4.163334 0.8644973 0.3045128 6.806212
## Parch -2.344191 0.3045128 0.7281027 9.262176
## Fare 73.849030 6.8062117 9.2621760 2800.413100
# Correlation Matrix
cor(data3)
## Age SibSp Parch Fare
## Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676 1.0000000 0.3838199 0.13832879
## Parch -0.18911926 0.3838199 1.0000000 0.20511888
## Fare 0.09606669 0.1383288 0.2051189 1.00000000
Nilai variansi terbesar terdapat pada variabel Fare, yang menunjukkan rentang harga tiket yang sangat lebar. Nilai kovariansi yang besar tidak selalu menunjukkan hubungan yang kuat, melainkan dapat dipengaruhi oleh perbedaan skala antar variabel.
Analisis eigen dilakukan untuk mengetahui kontribusi masing-masing komponen utama terhadap variasi data.
# Eigen analysis
covM <- cov(as.matrix(data3))
eig <- eigen(covM)
eig$values
## [1] 2802.5636587 209.0385659 0.9438783 0.4787214
eig$vectors
## [,1] [,2] [,3] [,4]
## [1,] 0.028477552 0.99929943 -0.024018111 0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322 0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826 0.004609234 0.0009266652
Nilai eigen terbesar didominasi oleh variabel Fare, yang disebabkan oleh perbedaan skala data. Hal ini menunjukkan bahwa analisis berbasis matriks kovariansi cenderung bias terhadap variabel dengan skala besar. Oleh karena itu, untuk data dengan satuan yang berbeda-beda, penggunaan matriks korelasi lebih disarankan.
Berdasarkan hasil analisis multivariat yang telah dilakukan, dapat disimpulkan bahwa terdapat hubungan yang signifikan antar beberapa variabel dalam dataset Titanic. Analisis ini menunjukkan pentingnya pemilihan metode dan skala data dalam analisis multivariat agar interpretasi hasil menjadi lebih tepat.