# menyatukan data
train_data <- fread("adult.data", header = FALSE, sep = ",", strip.white = TRUE)
test_data <- fread("adult.test", header = FALSE, sep = ",", strip.white = TRUE, skip = 1) # Lewati baris pertama (header tambahan)
full_data <- rbind(train_data, test_data)
names_raw <- readLines("adult.names")
col_names <- c("age", "workclass", "fnlwgt", "education", "education-num",
"marital-status", "occupation", "relationship", "race", "sex",
"capital-gain", "capital-loss", "hours-per-week", "native-country", "income")
setnames(full_data, col_names) # Mengganti nama kolom
final_dataset <- full_data
head(final_dataset)## 'data.frame': 48842 obs. of 15 variables:
## $ age : int 39 50 38 53 28 37 49 52 31 42 ...
## $ workclass : chr "State-gov" "Self-emp-not-inc" "Private" "Private" ...
## $ fnlwgt : int 77516 83311 215646 234721 338409 284582 160187 209642 45781 159449 ...
## $ education : chr "Bachelors" "Bachelors" "HS-grad" "11th" ...
## $ education.num : int 13 13 9 7 13 14 5 9 14 13 ...
## $ marital.status: chr "Never-married" "Married-civ-spouse" "Divorced" "Married-civ-spouse" ...
## $ occupation : chr "Adm-clerical" "Exec-managerial" "Handlers-cleaners" "Handlers-cleaners" ...
## $ relationship : chr "Not-in-family" "Husband" "Not-in-family" "Husband" ...
## $ race : chr "White" "White" "White" "Black" ...
## $ sex : chr "Male" "Male" "Male" "Male" ...
## $ capital.gain : int 2174 0 0 0 0 0 0 0 14084 5178 ...
## $ capital.loss : int 0 0 0 0 0 0 0 0 0 0 ...
## $ hours.per.week: int 40 13 40 40 40 40 16 45 50 40 ...
## $ native.country: chr "United-States" "United-States" "United-States" "United-States" ...
## $ income : chr "<=50K" "<=50K" "<=50K" "<=50K" ...
File ini berisi template untuk mejawab pertanyaan 5W+1H saat briefing Capstone Data Visualization sebagai langkah awal sebelum membuat d ashboard. Silakan Bapak/Ibu mengisi jawaban di bawah.
File ini tidak akan dinilai namun Bapak/Ibu WAJIB disubmit ke dalam classroom pada hari H briefing Capstone Data Visualization.
Tentukan tujuan atau informasi yang ingin ditampilkan dalam dashboard.
Jawab
Tujuan yang ingin dicapai atau informasi yang ingin disampaikan:
Untuk siapa dashboard ini dibuat? Siapa target pembaca dari dashboard ini?
Jawab
Apakah data yang dibuat relevan atau sesuai dengan tujuan? Mengapa?
Jawab
Apakah data yang digunakan masih up to date atau masih relevan dengan kondisi sekarang? Apakah ada informasi tentang tanggal update terakhir dari data tersebut?
Jawab
Sangat tidak relevan dengan kondisi sekarang, karena tanggal update terakhir dari data tersebut adalah pada 30 April 1996.
Bagaimana Bapak/Ibu menggunakan visualisasi untuk menjawab tujuan yang telah disebutkan?
Jawab
Plot untuk menjawab tujuan pertama
Plot untuk menjawab tujuan kedua
Plot untuk menjawab tujuan ketiga - Tujuan yang akan dijawab: Dashboard Interaktif - Plot yang akan dibuat: 🌳 Treemap/Pie Chart untuk proporsi jenis pekerjaan & 📉 Scatter Plot untuk distribusi pendapatan antara pekerjaan, pendidikan, dan income. - Variabel yang dimasukkan ke dalam plot: income, capital gain, occupation, education
Plot untuk menjawab tujuan keempat - Tujuan yang akan dijawab: Analisis Jam Kerja dan Pendapatan - Plot yang akan dibuat: 📈 Line Chart untuk tren jam terhadap pendapatan & 🎻 Violin Plot untuk distribusi jam kerja berdasarkan pendapatan. - Variabel yang dimasukkan ke dalam plot: hours.per.week, income
Bagaimana desain layout atau tata letak dashboard yang akan dibuat?
Jawab
Konten pada tab atau halaman pertama 📌 Judul tab: Overview &
Demografi Pendapatan - Ringkasan Data: Jumlah
individu dalam setiap kategori income, persentase demografi. -
Bar chart: Perbandingan jumlah income untuk pendapatan
<= $50K & >= $50K. -
Histogram: Distribusi usia berdasarkan kelompok
pendapatan. - Treemap atau Pie Chart: Proporsi
pekerjaan dalam dataset.
Konten pada tab atau halaman kedua 📌 Judul tab: Faktor yang Mempengaruhi Pendapatan - Correlation Heatmap: Hubungan antara variabel numerik seperti usia, pendidikan, jam kerja, capital gain/loss, dan income. - Boxplot/Violin Plot: Distribusi pendapatan berdasarkan tingkat pendidikan atau jenis pekerjaan. - Scatter Plot: Hubungan antara pekerjaan, jam kerja, dan pendapatan.
Konten pada tab atau halam ketiga 📌 Judul tab: Analisis Jam
Kerja & Pendapatan - Line Chart: Rata-rata jam
kerja berdasarkan kelompok income <= $50K &
>= $50K. - Violin Plot: Distribusi jam
kerja dalam berbagai kategori pekerjaan. - Scatter Plot
Interaktif: Hubungan antara jam kerja dan capital gain /
loss.