library(data.table)
# menyatukan data
train_data <- fread("adult.data", header = FALSE, sep = ",", strip.white = TRUE)
test_data <- fread("adult.test", header = FALSE, sep = ",", strip.white = TRUE, skip = 1)  # Lewati baris pertama (header tambahan)

full_data <- rbind(train_data, test_data)

names_raw <- readLines("adult.names")
col_names <- c("age", "workclass", "fnlwgt", "education", "education-num",
               "marital-status", "occupation", "relationship", "race", "sex",
               "capital-gain", "capital-loss", "hours-per-week", "native-country", "income")

setnames(full_data, col_names)  # Mengganti nama kolom

final_dataset <- full_data
head(final_dataset)
fwrite(final_dataset, "adult_full.csv") # menyimpan penggabungan data ke dalam .csv
adult <- read.csv("adult_full.csv")
str(adult)
## 'data.frame':    48842 obs. of  15 variables:
##  $ age           : int  39 50 38 53 28 37 49 52 31 42 ...
##  $ workclass     : chr  "State-gov" "Self-emp-not-inc" "Private" "Private" ...
##  $ fnlwgt        : int  77516 83311 215646 234721 338409 284582 160187 209642 45781 159449 ...
##  $ education     : chr  "Bachelors" "Bachelors" "HS-grad" "11th" ...
##  $ education.num : int  13 13 9 7 13 14 5 9 14 13 ...
##  $ marital.status: chr  "Never-married" "Married-civ-spouse" "Divorced" "Married-civ-spouse" ...
##  $ occupation    : chr  "Adm-clerical" "Exec-managerial" "Handlers-cleaners" "Handlers-cleaners" ...
##  $ relationship  : chr  "Not-in-family" "Husband" "Not-in-family" "Husband" ...
##  $ race          : chr  "White" "White" "White" "Black" ...
##  $ sex           : chr  "Male" "Male" "Male" "Male" ...
##  $ capital.gain  : int  2174 0 0 0 0 0 0 0 14084 5178 ...
##  $ capital.loss  : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ hours.per.week: int  40 13 40 40 40 40 16 45 50 40 ...
##  $ native.country: chr  "United-States" "United-States" "United-States" "United-States" ...
##  $ income        : chr  "<=50K" "<=50K" "<=50K" "<=50K" ...

File ini berisi template untuk mejawab pertanyaan 5W+1H saat briefing Capstone Data Visualization sebagai langkah awal sebelum membuat d ashboard. Silakan Bapak/Ibu mengisi jawaban di bawah.

File ini tidak akan dinilai namun Bapak/Ibu WAJIB disubmit ke dalam classroom pada hari H briefing Capstone Data Visualization.

What

Tentukan tujuan atau informasi yang ingin ditampilkan dalam dashboard.

Jawab

Tujuan yang ingin dicapai atau informasi yang ingin disampaikan:

  • Memvisualisasikan distribusi pendapatan berdasarkan faktor-faktor seperti usia, tingkat pendidikan, pekerjaan, dan jenis kelamin.
  • Menemukan variabel mana yang paling memengaruhi kemungkinan seseorang memiliki pendapatan di atas $50K per tahun.
  • Membuat dashboard Shiny yang memungkinkan pengguna mengeksplorasi hubungan antar variabel dan memahami pola dalam data.
  • Menyelidiki bagaimana jumlah jam kerja per minggu memengaruhi tingkat pendapatan dan apakah ada pola tertentu berdasarkan pekerjaan atau kelompok usia.

Who

Untuk siapa dashboard ini dibuat? Siapa target pembaca dari dashboard ini?

Jawab

  • Analis data & Peneliti Sosial -> Untuk eksplorasi hubungan antara faktor sosial dan ekonomi terhadap pendapatan.
  • HR & Perusahaan -> Untuk melihat bagaimana faktor pendidikan, pekerjaan, dan jam kerja dapat mempengaruhi penghasilan karyawan.
  • Akademisi & Mahasiswa -> Untuk digunakan sebagai referensi dalam studi ekonomi, demografi, dan data science.
  • Pemerintah & Lembaga Kebijakan -> Untuk memahami pola distribusi pendapatan dan membantu dalam perencanaan kebijakan ketenagakerjaan dan pendidikan.

Why

Apakah data yang dibuat relevan atau sesuai dengan tujuan? Mengapa?

Jawab

  • Demografi Pendapatan -> Data pendidikan, usia, pekerjaan, dan ras dapat dianalisis untuk melihat distribusi pendapatan.
  • Faktor Berpengaruh terhadap Pendapatan -> Data pekerjaan, marital status, dan jam kerja dapat digunakan untuk mencari faktor pengaruh pendapatan.
  • Interaktif & Eksploratif -> Dashboard memungkinkan pengguna dalam memilih variabel untuk eksplorasi lebih lanjut.
  • Jam Kerja & Pendapatan -> Dengan data jumlah jam kerja dan capital gain / capital loss, kita bisa melihat tren hubungan antara waktu kerja dan penghasilan. # When

Apakah data yang digunakan masih up to date atau masih relevan dengan kondisi sekarang? Apakah ada informasi tentang tanggal update terakhir dari data tersebut?

Jawab

Sangat tidak relevan dengan kondisi sekarang, karena tanggal update terakhir dari data tersebut adalah pada 30 April 1996.

How

Bagaimana Bapak/Ibu menggunakan visualisasi untuk menjawab tujuan yang telah disebutkan?

Jawab

Plot untuk menjawab tujuan pertama

  • Tujuan yang akan dijawab: Analisis Demografi Pendapatan
  • Plot yang akan dibuat: 📊 Bar chart untuk perbandingan income (<= $50K & >= $50K) & 📈 Histogram untuk distribusi usia.
  • Variabel yang dimasukkan ke dalam plot: age, education atau occupation, race, sex, native.country

Plot untuk menjawab tujuan kedua

  • Tujuan yang akan dijawab: Faktor yang Berpengaruh terhadap Pendapatan
  • Plot yang akan dibuat: 🔥 Correlation Heatmap untuk melihat hubungan antara variabel numerik & 📦 Box Plot untuk distribusi pendapatan berdasarkan pekerjaan atau pendidikan.
  • Variabel yang dimasukkan ke dalam plot: occupation, marital.status, hours.per.week

Plot untuk menjawab tujuan ketiga - Tujuan yang akan dijawab: Dashboard Interaktif - Plot yang akan dibuat: 🌳 Treemap/Pie Chart untuk proporsi jenis pekerjaan & 📉 Scatter Plot untuk distribusi pendapatan antara pekerjaan, pendidikan, dan income. - Variabel yang dimasukkan ke dalam plot: income, capital gain, occupation, education

Plot untuk menjawab tujuan keempat - Tujuan yang akan dijawab: Analisis Jam Kerja dan Pendapatan - Plot yang akan dibuat: 📈 Line Chart untuk tren jam terhadap pendapatan & 🎻 Violin Plot untuk distribusi jam kerja berdasarkan pendapatan. - Variabel yang dimasukkan ke dalam plot: hours.per.week, income

Where

Bagaimana desain layout atau tata letak dashboard yang akan dibuat?

Jawab

Konten pada tab atau halaman pertama 📌 Judul tab: Overview & Demografi Pendapatan - Ringkasan Data: Jumlah individu dalam setiap kategori income, persentase demografi. - Bar chart: Perbandingan jumlah income untuk pendapatan <= $50K & >= $50K. - Histogram: Distribusi usia berdasarkan kelompok pendapatan. - Treemap atau Pie Chart: Proporsi pekerjaan dalam dataset.

Konten pada tab atau halaman kedua 📌 Judul tab: Faktor yang Mempengaruhi Pendapatan - Correlation Heatmap: Hubungan antara variabel numerik seperti usia, pendidikan, jam kerja, capital gain/loss, dan income. - Boxplot/Violin Plot: Distribusi pendapatan berdasarkan tingkat pendidikan atau jenis pekerjaan. - Scatter Plot: Hubungan antara pekerjaan, jam kerja, dan pendapatan.

Konten pada tab atau halam ketiga 📌 Judul tab: Analisis Jam Kerja & Pendapatan - Line Chart: Rata-rata jam kerja berdasarkan kelompok income <= $50K & >= $50K. - Violin Plot: Distribusi jam kerja dalam berbagai kategori pekerjaan. - Scatter Plot Interaktif: Hubungan antara jam kerja dan capital gain / loss.