Bagian ini menjelaskan pembersihan missing value
Pertama, dataset mentah Titanic-Dataset.csv dimuat ke dalam
bahasa R.
Kolom-kolom yang dipilih adalah:
Age: Usia penumpang.
SibSp: Jumlah saudara kandung/pasangan yang bepergian
bersama di kapal Titanic.
Parch: Jumlah orang tua/anak yang bepergian bersama di
kapal Titanic.
Fare: Tarif penumpang.
Dataset seringkali mengandung ‘missing values’ (nilai yang hilang), yang
dapat mengganggu analisis statistik. Dalam proses ini, kami menggunakan
metode sederhana: menghapus semua baris yang mengandung setidaknya satu
nilai yang hilang di antara kolom-kolom yang dipilih. Metode ini
dilakukan menggunakan fungsi na.omit() dari R.
penghapusan baris adalah cara cepat untuk memastikan semua data yang digunakan dalam analisis adalah lengkap.
| Column | Missing_Values | Percentage |
|---|---|---|
| Age | 177 | 19.87 |
| SibSp | 0 | 0.00 |
| Parch | 0 | 0.00 |
| Fare | 0 | 0.00 |
| Column | Missing_Values | Percentage |
|---|---|---|
| Age | 0 | 0 |
| SibSp | 0 | 0 |
| Parch | 0 | 0 |
| Fare | 0 | 0 |
<p><strong>Jumlah baris data mentah:</strong> 891</p>
<p><strong>Jumlah baris data setelah pembersihan:</strong> 714</p>
<p><strong>Dimensi data setelah pembersihan (Baris x Kolom):</strong> 714 x 4</p>
| PC 1 | PC 2 | PC 3 | PC 4 | |
|---|---|---|---|---|
| Age | 0.0284776 | 0.9992994 | -0.0240181 | 0.0035789 |
| SibSp | 0.0023863 | -0.0209314 | -0.7736933 | 0.6332099 |
| Parch | 0.0032808 | -0.0125379 | -0.6330881 | -0.7739713 |
| Fare | 0.9995862 | -0.0283783 | 0.0046092 | 0.0009267 |
Grafik ini adalah heatmap dari matriks korelasi. Matriks korelasi mengukur hubungan linear antara pasangan variabel. Setiap sel dalam heatmap menunjukkan koefisien korelasi antara dua variabel, dengan nilai berkisar dari -1 hingga 1.
Diagonal utama (dari kiri atas ke kanan bawah) selalu bernilai 1 karena setiap variabel memiliki korelasi sempurna dengan dirinya sendiri. Heatmap ini membantu kita dengan cepat mengidentifikasi variabel mana yang paling terkait satu sama lain dalam dataset.
Heatmap ini memvisualisasikan matriks varians-kovarians. Matriks ini menggambarkan sebaran data dan bagaimana variabel-variabel berubah bersama-sama.
Tidak seperti korelasi, kovarians tidak distandarisasi, sehingga nilainya sensitif terhadap skala variabel. Matriks ini adalah input penting untuk Analisis Komponen Utama (PCA).
Grafik ini disebut Scree Plot, yang memvisualisasikan eigenvalues dari matriks kovarians. Dalam konteks Analisis Komponen Utama (PCA), setiap eigenvalue merepresentasikan jumlah varians dalam data yang dijelaskan oleh masing-masing Komponen Utama (Principal Component/PC).
Tujuan dari scree plot adalah untuk membantu menentukan berapa banyak komponen utama yang harus dipertahankan untuk analisis. Biasanya, kita mencari “titik siku” (elbow point) di mana nilai eigenvalue mulai menurun secara drastis, yang menandakan bahwa komponen utama selanjutnya menjelaskan varians yang semakin sedikit dan mungkin kurang signifikan.
Tabel ini menampilkan eigenvectors, yang juga dikenal sebagai loadings dalam konteks PCA. Setiap kolom (PC1, PC2, dst.) adalah sebuah eigenvector, dan nilai di dalamnya menunjukkan “bobot” atau kontribusi dari setiap variabel asli (Age, SibSp, Parch, Fare) terhadap pembentukan Komponen Utama tersebut.
Misalnya, jika pada PC1 variabel ‘Fare’ memiliki loading yang sangat tinggi, ini berarti ‘Fare’ adalah kontributor utama untuk varians yang ditangkap oleh Komponen Utama pertama. Dengan menganalisis loading ini, kita bisa memberikan interpretasi atau “nama” pada setiap Komponen Utama berdasarkan variabel apa yang paling memengaruhinya.