title: “Tugas Analisis Multivariat”
author: “Guntoro Satriaji”
NIM: “24031554103”
date: “10/02/2026”
output: html_document

1. Pendahuluan

Analisis multivariat merupakan metode statistik yang digunakan untuk menganalisis hubungan antar lebih dari satu variabel secara simultan. Pada laporan ini, analisis dilakukan terhadap data penumpang Titanic untuk melihat hubungan antar variabel numerik yang berkaitan dengan karakteristik penumpang.

2. Deskripsi Data

Dataset yang digunakan merupakan Titanic Dataset dengan beberapa variabel numerik yang relevan untuk analisis multivariat.

# Read data
data1 <- read_csv("Titanic_Dataset.csv")

# Menampilkan beberapa baris awal data
head(data1)
## # A tibble: 6 × 12
##   PassengerId Survived Pclass Name    Sex     Age SibSp Parch Ticket  Fare Cabin
##         <dbl>    <dbl>  <dbl> <chr>   <chr> <dbl> <dbl> <dbl> <chr>  <dbl> <chr>
## 1           1        0      3 Braund… male     22     1     0 A/5 2…  7.25 <NA> 
## 2           2        1      1 Cuming… fema…    38     1     0 PC 17… 71.3  C85  
## 3           3        1      3 Heikki… fema…    26     0     0 STON/…  7.92 <NA> 
## 4           4        1      1 Futrel… fema…    35     1     0 113803 53.1  C123 
## 5           5        0      3 Allen,… male     35     0     0 373450  8.05 <NA> 
## 6           6        0      3 Moran,… male     NA     0     0 330877  8.46 <NA> 
## # ℹ 1 more variable: Embarked <chr>

3. Seleksi dan Pembersihan Data

Pada tahap ini dilakukan pemilihan variabel numerik yang akan dianalisis serta penghapusan data yang mengandung nilai hilang (missing value).

# Seleksi kolom numerik
data2 <- select(data1, Age, SibSp, Parch, Fare)

# Mengecek jumlah missing value
sapply(data2, function(x) sum(is.na(x)))
##   Age SibSp Parch  Fare 
##   177     0     0     0
# Menghapus baris dengan missing value
data3 <- na.omit(data2)

# Cek ulang missing value
sapply(data3, function(x) sum(is.na(x)))
##   Age SibSp Parch  Fare 
##     0     0     0     0

4. Analisis Korelasi

Analisis korelasi digunakan untuk mengetahui kekuatan dan arah hubungan antar variabel numerik.

# Correlation plot
corrplot(
  cor(data3),
  addCoef.col = "white",
  number.cex = 0.8,
  number.digits = 1,
  diag = TRUE
)

Interpretasi Correlation Plot

Berdasarkan hasil visualisasi korelasi, dapat disimpulkan bahwa:

  1. Variabel SibSp dan Parch memiliki korelasi positif yang cukup kuat, yang menunjukkan kecenderungan penumpang bepergian bersama anggota keluarga.
  2. Variabel Age memiliki hubungan negatif dengan SibSp, yang mengindikasikan bahwa penumpang dengan usia lebih tua cenderung memiliki lebih sedikit saudara yang ikut dalam perjalanan.
  3. Variabel Fare menunjukkan korelasi yang relatif lemah terhadap variabel lainnya.

5. Chart Correlation dan Signifikansi

Untuk melihat distribusi data dan signifikansi hubungan antar variabel, digunakan chart correlation dengan di sini menggunakan metode Kendall.

chart.Correlation(
  data3,
  histogram = TRUE,
  method = "kendall"
)

Interpretasi Chart Correlation

Dari grafik di atas dapat diperoleh dua informasi utama:

  1. Distribusi Data (Diagonal) Variabel SibSp, Parch, dan Fare tidak berdistribusi normal (skewed right), hasil ini mendukung penggunaan korelasi Kendall.

  2. Signifikansi Hubungan (Bagian Atas) Tanda bintang (***) menunjukkan bahwa sebagian besar hubungan antar variabel signifikan secara statistik, terutama hubungan positif antara SibSp dan Parch, serta hubungan negatif antara Age dan SibSp.

6. Matriks Variansi-Kovariansi dan Korelasi

Matriks variansi-kovariansi digunakan untuk melihat sebaran dan hubungan antar variabel dalam satuan aslinya.

# Variance-Covariance Matrix
var(data3)
##              Age      SibSp      Parch        Fare
## Age   211.019125 -4.1633339 -2.3441911   73.849030
## SibSp  -4.163334  0.8644973  0.3045128    6.806212
## Parch  -2.344191  0.3045128  0.7281027    9.262176
## Fare   73.849030  6.8062117  9.2621760 2800.413100
# Correlation Matrix
cor(data3)
##               Age      SibSp      Parch       Fare
## Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## SibSp -0.30824676  1.0000000  0.3838199 0.13832879
## Parch -0.18911926  0.3838199  1.0000000 0.20511888
## Fare   0.09606669  0.1383288  0.2051189 1.00000000

Interpretasi Matriks Variansi-Kovariansi

Nilai variansi terbesar terdapat pada variabel Fare, yang menunjukkan rentang harga tiket yang sangat lebar. Nilai kovariansi yang besar tidak selalu menunjukkan hubungan yang kuat, melainkan dapat dipengaruhi oleh perbedaan skala antar variabel.

7. Eigen Value dan Eigen Vector

Analisis eigen dilakukan untuk mengetahui kontribusi masing-masing komponen utama terhadap variasi data.

# Eigen analysis
covM <- cov(as.matrix(data3))
eig <- eigen(covM)

eig$values
## [1] 2802.5636587  209.0385659    0.9438783    0.4787214
eig$vectors
##             [,1]        [,2]         [,3]          [,4]
## [1,] 0.028477552  0.99929943 -0.024018111  0.0035788596
## [2,] 0.002386349 -0.02093144 -0.773693322  0.6332099362
## [3,] 0.003280818 -0.01253786 -0.633088089 -0.7739712590
## [4,] 0.999586200 -0.02837826  0.004609234  0.0009266652

Interpretasi Eigen Analysis

Nilai eigen terbesar didominasi oleh variabel Fare, yang disebabkan oleh perbedaan skala data. Hal ini menunjukkan bahwa analisis berbasis matriks kovariansi cenderung bias terhadap variabel dengan skala besar. Oleh karena itu, untuk data dengan satuan yang berbeda-beda, penggunaan matriks korelasi lebih disarankan.

8. Kesimpulan

Berdasarkan hasil analisis multivariat yang telah dilakukan, dapat disimpulkan bahwa terdapat hubungan yang signifikan antar beberapa variabel dalam dataset Titanic. Analisis ini menunjukkan pentingnya pemilihan metode dan skala data dalam analisis multivariat agar interpretasi hasil menjadi lebih tepat.