Data Preprocessing

Bagian ini menjelaskan pembersihan missing value

  1. Memuat Data Mentah

Pertama, dataset mentah Titanic-Dataset.csv dimuat ke dalam bahasa R.

  1. Pemilihan Kolom Penting

Kolom-kolom yang dipilih adalah:

  1. Penanganan Missing Values

Dataset seringkali mengandung ‘missing values’ (nilai yang hilang), yang dapat mengganggu analisis statistik. Dalam proses ini, kami menggunakan metode sederhana: menghapus semua baris yang mengandung setidaknya satu nilai yang hilang di antara kolom-kolom yang dipilih. Metode ini dilakukan menggunakan fungsi na.omit() dari R.

penghapusan baris adalah cara cepat untuk memastikan semua data yang digunakan dalam analisis adalah lengkap.

Ringkasan Missing Values Sebelum Pembersihan

Jumlah Missing Values per Kolom (Sebelum Pembersihan)
Column Missing_Values Percentage
Age 177 19.87
SibSp 0 0.00
Parch 0 0.00
Fare 0 0.00

Ringkasan Data Setelah Pembersihan

Jumlah Missing Values per Kolom (Setelah Pembersihan)
Column Missing_Values Percentage
Age 0 0
SibSp 0 0
Parch 0 0
Fare 0 0
<p><strong>Jumlah baris data mentah:</strong> 891</p>
<p><strong>Jumlah baris data setelah pembersihan:</strong> 714</p>
<p><strong>Dimensi data setelah pembersihan (Baris x Kolom):</strong> 714 x 4</p>

Multivariate Analysis

Column

Correlation Matrix Heatmap

Variance-Covariance Matrix Heatmap

Column

Eigenvalues (Scree Plot)

Eigenvectors

Eigenvector Loadings
PC 1 PC 2 PC 3 PC 4
Age 0.0284776 0.9992994 -0.0240181 0.0035789
SibSp 0.0023863 -0.0209314 -0.7736933 0.6332099
Parch 0.0032808 -0.0125379 -0.6330881 -0.7739713
Fare 0.9995862 -0.0283783 0.0046092 0.0009267

Penjelasan Analisis

1. Heatmap Matriks Korelasi

Grafik ini adalah heatmap dari matriks korelasi. Matriks korelasi mengukur hubungan linear antara pasangan variabel. Setiap sel dalam heatmap menunjukkan koefisien korelasi antara dua variabel, dengan nilai berkisar dari -1 hingga 1.

  • Nilai mendekati 1 (warna terang/kuning): Menunjukkan hubungan positif yang kuat. Ketika satu variabel meningkat, variabel lainnya juga cenderung meningkat.
  • Nilai mendekati -1 (warna gelap/ungu): Menunjukkan hubungan negatif yang kuat. Ketika satu variabel meningkat, variabel lainnya cenderung menurun.
  • Nilai mendekati 0 (warna tengah/hijau): Menunjukkan tidak ada hubungan linear yang kuat antara dua variabel.

Diagonal utama (dari kiri atas ke kanan bawah) selalu bernilai 1 karena setiap variabel memiliki korelasi sempurna dengan dirinya sendiri. Heatmap ini membantu kita dengan cepat mengidentifikasi variabel mana yang paling terkait satu sama lain dalam dataset.

2. Heatmap Matriks Varians-Kovarians

Heatmap ini memvisualisasikan matriks varians-kovarians. Matriks ini menggambarkan sebaran data dan bagaimana variabel-variabel berubah bersama-sama.

  • Diagonal Utama (Varians): Nilai-nilai pada diagonal utama adalah varians dari setiap variabel. Varians mengukur seberapa jauh titik data tersebar dari nilai rata-ratanya. Nilai varians yang besar (warna terang) berarti data lebih tersebar.
  • Elemen Off-Diagonal (Kovarians): Nilai-nilai di luar diagonal adalah kovarians antara pasangan variabel. Kovarians mengukur arah hubungan linear antara dua variabel.
    • Kovarians Positif: Menunjukkan bahwa kedua variabel cenderung bergerak ke arah yang sama.
    • Kovarians Negatif: Menunjukkan bahwa kedua variabel cenderung bergerak ke arah yang berlawanan.
    • Kovarians mendekati 0: Menunjukkan sedikit atau tidak ada hubungan linear.

Tidak seperti korelasi, kovarians tidak distandarisasi, sehingga nilainya sensitif terhadap skala variabel. Matriks ini adalah input penting untuk Analisis Komponen Utama (PCA).

3. Scree Plot (Eigenvalues)

Grafik ini disebut Scree Plot, yang memvisualisasikan eigenvalues dari matriks kovarians. Dalam konteks Analisis Komponen Utama (PCA), setiap eigenvalue merepresentasikan jumlah varians dalam data yang dijelaskan oleh masing-masing Komponen Utama (Principal Component/PC).

  • Komponen Utama (PC): Adalah sumbu-sumbu baru yang diciptakan dari kombinasi linear variabel asli. PC pertama (PC1) menangkap varians paling besar, PC2 menangkap varians terbesar kedua yang belum dijelaskan oleh PC1, dan seterusnya.
  • Besaran Eigenvalue: Semakin besar nilai eigenvalue, semakin banyak varians yang ditangkap oleh komponen utamanya.

Tujuan dari scree plot adalah untuk membantu menentukan berapa banyak komponen utama yang harus dipertahankan untuk analisis. Biasanya, kita mencari “titik siku” (elbow point) di mana nilai eigenvalue mulai menurun secara drastis, yang menandakan bahwa komponen utama selanjutnya menjelaskan varians yang semakin sedikit dan mungkin kurang signifikan.

4. Tabel Eigenvectors

Tabel ini menampilkan eigenvectors, yang juga dikenal sebagai loadings dalam konteks PCA. Setiap kolom (PC1, PC2, dst.) adalah sebuah eigenvector, dan nilai di dalamnya menunjukkan “bobot” atau kontribusi dari setiap variabel asli (Age, SibSp, Parch, Fare) terhadap pembentukan Komponen Utama tersebut.

  • Nilai (Loading) yang besar (baik positif maupun negatif): Menunjukkan bahwa variabel asli tersebut memiliki pengaruh yang kuat dalam mendefinisikan Komponen Utama tersebut.
  • Tanda Positif/Negatif: Menunjukkan arah hubungan. Jika dua variabel memiliki loading dengan tanda yang sama pada sebuah PC, mereka berkorelasi positif dalam konteks PC tersebut. Jika tandanya berlawanan, mereka berkorelasi negatif.

Misalnya, jika pada PC1 variabel ‘Fare’ memiliki loading yang sangat tinggi, ini berarti ‘Fare’ adalah kontributor utama untuk varians yang ditangkap oleh Komponen Utama pertama. Dengan menganalisis loading ini, kita bisa memberikan interpretasi atau “nama” pada setiap Komponen Utama berdasarkan variabel apa yang paling memengaruhinya.