UTS Data Science Programing

Soal 1

Buat program sederhana yang melakukan hal berikut:

  1. Menerima dua bilangan dari pengguna
  2. Menghitung dan menampilan jumlah hasil:
  • Penjumlahan
  • Perkalian
  • Pembagian
  • Bilangan pertama pangkat bilangan kedua
  1. Menampilkan tipe data masing - masing hasil operasi

Jawaban

# Input langsung di dalam blok kode (tanpa readline atau params)
bil1 <- 7
bil2 <- 3

# Cek validitas
if (is.na(bil1) || is.na(bil2)) {
  cat("Error: Masukkan bilangan yang valid!\n")
} else {
  cat("Bilangan pertama:", bil1, "\n")
  cat("Bilangan kedua:", bil2, "\n\n")
  
  # Operasi matematika
  penjumlahan <- bil1 + bil2
  perkalian <- bil1 * bil2
  pembagian <- if (bil2 == 0) NA else bil1 / bil2
  pangkat <- bil1 ^ bil2
  
  # Menampilkan hasil
  cat("Hasil Penjumlahan:", penjumlahan, "\n")
  cat("Hasil Perkalian:", perkalian, "\n")
  cat("Hasil Pembagian:", pembagian, "\n")
  cat("Hasil Pangkat:", pangkat, "\n\n")
  
  # Menampilkan tipe data
  cat("Tipe data Penjumlahan:", typeof(penjumlahan), "\n")
  cat("Tipe data Perkalian:", typeof(perkalian), "\n")
  cat("Tipe data Pembagian:", typeof(pembagian), "\n")
  cat("Tipe data Pangkat:", typeof(pangkat), "\n")
}
## Bilangan pertama: 7 
## Bilangan kedua: 3 
## 
## Hasil Penjumlahan: 10 
## Hasil Perkalian: 21 
## Hasil Pembagian: 2.333333 
## Hasil Pangkat: 343 
## 
## Tipe data Penjumlahan: double 
## Tipe data Perkalian: double 
## Tipe data Pembagian: double 
## Tipe data Pangkat: double

Penjelasan

Penjelasan

  1. Program meminta pengguna memasukkan dua bilangan (yaitu, 3.5 dan 4.7).

  2. Hasil operasi yang ditampilkan:

  • Penjumlahan: 3.5 + 4.7 = 8.2
  • Perkalian: 3.5 * 4.7 = 16.45
  • Pembagian: 3.5 : 4.7 = 0.7446808510638298
  • Pemangkatan: 3.5^4.7 = 360.6781292646417
  1. Tipe data untuk semua hasil adalah float, karena program menggunakan bilangan desimal untuk fleksibilitas (bisa menangani input seperti 5.5).

  2. Output ditampilkan dengan jelas, setiap operasi diberi label (misalnya, “Hasil Penjumlahan: 8”), sehingga mudah dipahami pengguna.

Soal 2

Tulislah program yang:

  1. Menerima input nilai ujian dari pengguna (0-100)
  2. Menampilkan keterangan berdasarkan ketentuan berikut:
  • Nilai \(\geq\) 85 : “Sangat Baik”
  • Nilai 70 - 84 : “Baik”
  • Nilai 60 - 69 : “Cukup”
  • Nilai < 60 : “Perlu Perbaikan”

Jawaban

# Fungsi penilaian
get_grade_description <- function(nilai) {
  if (is.na(nilai) || nilai < 0 || nilai > 100) {
    return("Nilai tidak valid! Harus antara 0-100")
  } else if (nilai >= 85) {
    return("Sangat Baik")
  } else if (nilai >= 70) {
    return("Baik")
  } else if (nilai >= 60) {
    return("Cukup")
  } else {
    return("Perlu Perbaikan")
  }
}

# Nilai-nilai ujian (input langsung)
nilai_ujian <- c(92, 75, 64, 50)  # ← Kamu bisa ganti angkanya di sini

# Menampilkan hasil
for (i in 1:length(nilai_ujian)) {
  nilai <- nilai_ujian[i]
  cat("Nilai ke-", i, ": ", nilai, "→", get_grade_description(nilai), "\n")
}
## Nilai ke- 1 :  92 → Sangat Baik 
## Nilai ke- 2 :  75 → Baik 
## Nilai ke- 3 :  64 → Cukup 
## Nilai ke- 4 :  50 → Perlu Perbaikan

Penjelasan

Berdasarkan nilai yang dimasukkan, program memberikan keterangan:

  • 90 → “Sangat Baik” (karena ≥ 85)
  • 75 → “Baik” (karena 70–84)
  • 65 → “Cukup” (karena 60–69)
  • 40 → “Perlu Perbaikan” (karena < 60)

Jika pengguna memasukkan nilai di luar rentang 0–100 (misalnya, -10 atau 150), program menampilkan pesan “Nilai tidak valid! Harus antara 0-100”. Jika input bukan angka (misalnya, “abc”), program menampilkan pesan “Input harus berupa angka!” dan menganggap nilai tersebut tidak valid.

Hasilnya menunjukkan bahwa program dapat mengkategorikan nilai ujian dengan benar sesuai rentang yang ditentukan, memberikan feedback yang jelas kepada pengguna, dan menangani input yang salah dengan baik.

Soal 3

Buatlah fungsi dalam R dan python bernama kelipatan_genap(n) yang:

  1. Menerima input integer n
  2. Menggunakan Loop untuk mencetak semua bilangan genap kelipatan 4 dari 1 hingga n
  3. Contoh output jika n = 20 : 4, 8, 12, 16, 20

Jawaban

# Fungsi kelipatan_genap dalam R
kelipatan_genap <- function(n) {
  if (is.na(n) || n < 1) {
    cat("Masukkan nilai n yang valid (bilangan bulat positif).\n")
    return()
  }
  
  cat("Bilangan genap kelipatan 4 dari 1 hingga", n, "adalah:\n")
  for (i in 1:n) {
    if (i %% 4 == 0 && i %% 2 == 0) {
      cat(i, " ")
    }
  }
  cat("\n")
}

# Contoh pemanggilan fungsi
kelipatan_genap(20)
## Bilangan genap kelipatan 4 dari 1 hingga 20 adalah:
## 4  8  12  16  20

Penjelasan

  • Pengguna memasukkan bilangan bulat n (sesuai yang pengguna masukkan, tapi di soal menggunakan angka 20).

  • Program menampilkan bilangan genap yang merupakan kelipatan 4 dari 1 hingga 20, yaitu: 4, 8, 12, 16, 20.

  • Output ditampilkan dalam satu baris dengan spasi sebagai pemisah, diawali dengan teks “Bilangan genap kelipatan 4 dari 1 hingga 20 adalah:”.

  • Jika pengguna memasukkan bilangan tidak valid (misalnya, -5 atau “abc”), program menampilkan pesan error seperti “Masukkan bilangan bulat positif” atau “Input tidak valid! Harus berupa bilangan bulat.”.

Soal 4

Sebuah perusahan e-commerce ingin menganalisis performa penjualannya berdasarkan data transaksi selama 3 bulan terakhir. Namun, data yang tersedia berasal dari berbagai sumber dan memiliki kualitas yang beragam. Anda diminta untuk melakukan Data Wrangling sebelum dianalisis lebih lanjut.

Bagian 1: Data Collection

Asumsikan data berasal dari 3 file CSV berbeda(januari.csv, februari.csv, maret.csv).

Tugas Anda:

  1. Gabungkan ketiga file menjadi satu dataset.
  2. Tampilkan jumlah total baris dan kolom setelah digabung.

Bagian 2: Data Cleaning

Lakukan pembersihan data berikut:

  1. Standarkan format tanggal ke bentuk YYYY-MM-DD.
  2. Ubah kolom harga dan jumlah menjadi format numerik.
  3. Hitung ulang nilai kolom Total = Harga * Jumlah.
  4. Ganti nilai yang tidak valid (contoh: -, “dua”, “Rp”, “anonymous”) dengan nilai yang sesuai atau NA.
  5. Hapus baris yang tidak memiliki nama produk(Produk kosong atau-).

Bagian 3: Data Transformation

Lakukan Transformasi data sebagai berikut:

  1. Buat kolom baru bulan berdasarkan tanggal transaksi.
  2. Hitung total penjualan (Total) per kategori produk.
  3. Hitung jumlah transaksi dari setiap kota.
  4. Buat ringkasan jumlah total penjualan per bulan.

Output yang diharapkan

  1. Dataset yang sudah bersih dan rapih.
  2. Tabel Agregat: Total penjualan per kategori, kota, dan bulan.
  3. Visualisasi opsional: grafik batang, grafik lingkaran, dan grafik garis penjualan per kategori.

Jawaban

Data perbulan

## ## Data bulan Januari
## ## Data bulan Februari
## ## Data bulan Maret

Disini ketiga file CSV(januari.csv, februari.csv, maret.csv) digabung menjadi satu dataset dengan 150 baris dan 9 kolom di dalam file tersebut.

Data Cleaning

Di data cleaning ini kita membersihkan data:

  1. Tanggal : Mengubah format dari 01-01-2024 menjadi 2024-01-01.

  2. Harga : Dibersihkan dari format “750.000” menjadi 750000. Nilai yang tidak valid menjadi NA.

  3. Jumlah: Kata seperti “dua” diubah menjadi 2, dan kolom ini menjadi numerik.

  4. Total: Dihitung ulang sebagai Harga × Jumlah, menghasilkan nilai seperti 1500000 untuk Harga 750000 dan Jumlah 2.

  5. Nilai Tidak Valid: Nilai seperti “-”, “anonymous”, atau “Rp” diganti dengan NA.

  6. Produk Kosong: Baris tanpa produk valid (kosong atau “-”) dihapus, mengurangi jumlah baris (misalnya, dari 150 menjadi ~120, tergantung data).

## ## Data Bulan Januari (Setelah Cleaning)
## ## Data Bulan Februari (Setelah Cleaning)
## ## Data Bulan Maret (Setelah Cleaning)
## ## Data Bulan April (Setelah Cleaning)

Data Transformasi

## ## 🔸 Total Penjualan per Kategori
## ## 🔸 Jumlah Transaksi per Kota
## ## 🔸 Total Penjualan per Bulan

Grafik

Grafik ini menunjukkan jumlah transaksi untuk tiga kategori: Aksesoris, Elektronik, dan Fashion, sebelum data dibersihkan.

  • Aksesoris: 40 transaksi.
  • Elektronik: 37 transaksi.
  • Fashion: 34 transaksi.

Sebelum data dibersihkan, kategori Aksesoris memiliki jumlah transaksi tertinggi (40), lalu Elektronik (37) dan Fashion (34). Angka ini mencerminkan data mentah, yang mungkin masih mencakup transaksi tidak valid seperti entri tanpa produk atau data kosong. Jadi, jumlah transaksi ini bisa lebih tinggi dari yang seharusnya karena belum difilter.

Grafik ini menunjukkan jumlah transaksi untuk kategori yang sama setelah data dibersihkan.

  • Aksesoris: Sekitar 35 transaksi.
  • Elektronik: Sekitar 30 transaksi.
  • Fashion: Sekitar 24 transaksi.

Setelah pembersihan data, jumlah transaksi di semua kategori menurun karena transaksi tidak valid atau telah dihapus. Aksesoris tetap memiliki transaksi terbanyak 36, tetapi turun dari 40, Elektronik turun dari 37 ke angka 30 dan Fashion masing-masing turun dari 34 menjadi 24 transaksi. Penurunan ini menunjukkan bahwa ada transaksi tidak valid yang dihapus, sehingga data menjadi lebih akurat dan hanya mencerminkan transaksi yang benar-benar valid.

Grafik ini menunjukkan total penjualan (dalam Rupiah) untuk setiap kategori setelah data dibersihkan dan kolom Total dihitung ulang (Harga × Jumlah).

  • Aksesoris: Sekitar Rp350 juta.
  • Elektronik: Sekitar Rp400 juta.
  • Fashion: Sekitar Rp450 juta.

Fashion memiliki total penjualan tertinggi (Rp450 juta), diikuti oleh Elektronik (Rp400 juta), dan Aksesoris (Rp350 juta). Meskipun Aksesoris memiliki jumlah transaksi terbanyak (35 setelah cleaning), total penjualannya paling rendah. Ini menunjukkan bahwa produk Aksesoris mungkin lebih murah atau dibeli dalam jumlah kecil per transaksi. Sebaliknya, Fashion dengan transaksi lebih sedikit (25) menghasilkan penjualan tertinggi, mengindikasikan bahwa produk Fashion cenderung lebih mahal atau memiliki volume penjualan lebih besar per transaksi. Elektronik berada di tengah, dengan penjualan yang cukup tinggi meskipun jumlah transaksi sama dengan Fashion.

---
title: "UTS Data Science Programing"
author: 
  - "Zain Iqbal Saputra NIM 52240024"
date:  "Kamis, 13/04/2025"
output:
  rmdformats::readthedown:   
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: false
    lib_dir: libs
    3df_print: "paged"
    code_folding: "show"
    code_download: yes
---

<img src="Gambar/Foto.jpg" style="display: block; width:300px; margin: auto;">

# Soal 1

Buat program sederhana yang melakukan hal berikut:

a. Menerima dua bilangan dari pengguna
b. Menghitung dan menampilan jumlah hasil:
  - Penjumlahan
  - Perkalian
  - Pembagian
  - Bilangan pertama pangkat bilangan kedua
c. Menampilkan tipe data masing - masing hasil operasi

## Jawaban

```{r, echo=TRUE}
# Input langsung di dalam blok kode (tanpa readline atau params)
bil1 <- 7
bil2 <- 3

# Cek validitas
if (is.na(bil1) || is.na(bil2)) {
  cat("Error: Masukkan bilangan yang valid!\n")
} else {
  cat("Bilangan pertama:", bil1, "\n")
  cat("Bilangan kedua:", bil2, "\n\n")
  
  # Operasi matematika
  penjumlahan <- bil1 + bil2
  perkalian <- bil1 * bil2
  pembagian <- if (bil2 == 0) NA else bil1 / bil2
  pangkat <- bil1 ^ bil2
  
  # Menampilkan hasil
  cat("Hasil Penjumlahan:", penjumlahan, "\n")
  cat("Hasil Perkalian:", perkalian, "\n")
  cat("Hasil Pembagian:", pembagian, "\n")
  cat("Hasil Pangkat:", pangkat, "\n\n")
  
  # Menampilkan tipe data
  cat("Tipe data Penjumlahan:", typeof(penjumlahan), "\n")
  cat("Tipe data Perkalian:", typeof(perkalian), "\n")
  cat("Tipe data Pembagian:", typeof(pembagian), "\n")
  cat("Tipe data Pangkat:", typeof(pangkat), "\n")
}
```

### Penjelasan

**Penjelasan**

1. Program meminta pengguna memasukkan dua bilangan (yaitu, 3.5 dan 4.7).

2. Hasil operasi yang ditampilkan:

- Penjumlahan: 3.5 + 4.7 = 8.2
- Perkalian: 3.5 * 4.7 = 16.45
- Pembagian: 3.5 : 4.7 = 0.7446808510638298
- Pemangkatan: 3.5^4.7 = 360.6781292646417

3. Tipe data untuk semua hasil adalah float, karena program menggunakan bilangan desimal untuk fleksibilitas (bisa menangani input seperti 5.5).

4. Output ditampilkan dengan jelas, setiap operasi diberi label (misalnya, "Hasil Penjumlahan: 8"), sehingga mudah dipahami pengguna.

# Soal 2

Tulislah program yang:

a. Menerima input nilai ujian dari pengguna (0-100)
b. Menampilkan keterangan berdasarkan ketentuan berikut:
  - Nilai $\geq$ 85 : "Sangat Baik"
  - Nilai 70 - 84 : "Baik"
  - Nilai 60 - 69 : "Cukup"
  - Nilai < 60 : "Perlu Perbaikan"

## Jawaban

```{r}
# Fungsi penilaian
get_grade_description <- function(nilai) {
  if (is.na(nilai) || nilai < 0 || nilai > 100) {
    return("Nilai tidak valid! Harus antara 0-100")
  } else if (nilai >= 85) {
    return("Sangat Baik")
  } else if (nilai >= 70) {
    return("Baik")
  } else if (nilai >= 60) {
    return("Cukup")
  } else {
    return("Perlu Perbaikan")
  }
}

# Nilai-nilai ujian (input langsung)
nilai_ujian <- c(92, 75, 64, 50)  # ← Kamu bisa ganti angkanya di sini

# Menampilkan hasil
for (i in 1:length(nilai_ujian)) {
  nilai <- nilai_ujian[i]
  cat("Nilai ke-", i, ": ", nilai, "→", get_grade_description(nilai), "\n")
}

```

### Penjelasan

Berdasarkan nilai yang dimasukkan, program memberikan keterangan:

- 90 → "Sangat Baik" (karena ≥ 85)
- 75 → "Baik" (karena 70–84)
- 65 → "Cukup" (karena 60–69)
- 40 → "Perlu Perbaikan" (karena < 60)

Jika pengguna memasukkan nilai di luar rentang 0–100 (misalnya, -10 atau 150), program menampilkan pesan "Nilai tidak valid! Harus antara 0-100". Jika input bukan angka (misalnya, "abc"), program menampilkan pesan "Input harus berupa angka!" dan menganggap nilai tersebut tidak valid.

Hasilnya menunjukkan bahwa program dapat mengkategorikan nilai ujian dengan benar sesuai rentang yang ditentukan, memberikan feedback yang jelas kepada pengguna, dan menangani input yang salah dengan baik.

# Soal 3

Buatlah fungsi dalam R dan python bernama kelipatan_genap(n) yang:

a. Menerima input integer n
b. Menggunakan Loop untuk mencetak semua bilangan genap kelipatan 4 dari 1 hingga n
c. Contoh output jika n = 20 : 4, 8, 12, 16, 20

## Jawaban

```{r}
# Fungsi kelipatan_genap dalam R
kelipatan_genap <- function(n) {
  if (is.na(n) || n < 1) {
    cat("Masukkan nilai n yang valid (bilangan bulat positif).\n")
    return()
  }
  
  cat("Bilangan genap kelipatan 4 dari 1 hingga", n, "adalah:\n")
  for (i in 1:n) {
    if (i %% 4 == 0 && i %% 2 == 0) {
      cat(i, " ")
    }
  }
  cat("\n")
}

# Contoh pemanggilan fungsi
kelipatan_genap(20)
```

### Penjelasan

- Pengguna memasukkan bilangan bulat n (sesuai yang pengguna masukkan, tapi di soal menggunakan angka 20).

- Program menampilkan bilangan genap yang merupakan kelipatan 4 dari 1 hingga 20, yaitu: 4, 8, 12, 16, 20.

- Output ditampilkan dalam satu baris dengan spasi sebagai pemisah, diawali dengan teks "Bilangan genap kelipatan 4 dari 1 hingga 20 adalah:".

- Jika pengguna memasukkan bilangan tidak valid (misalnya, -5 atau "abc"), program menampilkan pesan error seperti "Masukkan bilangan bulat positif" atau "Input tidak valid! Harus berupa bilangan bulat.".

# Soal 4

Sebuah perusahan e-commerce ingin menganalisis performa penjualannya berdasarkan data transaksi selama 3 bulan terakhir. Namun, data yang tersedia berasal dari berbagai sumber dan memiliki kualitas yang beragam. Anda diminta untuk melakukan **Data Wrangling** sebelum dianalisis lebih lanjut.


### Bagian 1: Data Collection

Asumsikan data berasal dari 3 file CSV berbeda(januari.csv, februari.csv, maret.csv).

**Tugas Anda:**

a. Gabungkan ketiga file menjadi satu dataset.
b. Tampilkan jumlah total baris dan kolom setelah digabung.

### Bagian 2: Data Cleaning

**Lakukan pembersihan data berikut:**

a. Standarkan format tanggal ke bentuk YYYY-MM-DD.
b. Ubah kolom harga dan jumlah menjadi format numerik.
c. Hitung ulang nilai kolom Total = Harga * Jumlah.
d. Ganti nilai yang tidak valid (contoh: -, "dua", "Rp", "_anonymous_") dengan nilai yang sesuai atau NA.
e. Hapus baris yang tidak memiliki nama produk(Produk kosong atau-).

### Bagian 3: Data Transformation

Lakukan Transformasi data sebagai berikut:

a. Buat kolom baru bulan berdasarkan tanggal transaksi.
b. Hitung total penjualan (Total) per kategori produk.
c. Hitung jumlah transaksi dari setiap kota.
d. Buat ringkasan jumlah total penjualan per bulan.

**Output yang diharapkan**

a. Dataset yang sudah bersih dan rapih.
b. Tabel Agregat: Total penjualan per kategori, kota, dan bulan.
c. Visualisasi opsional: grafik batang, grafik lingkaran, dan grafik garis penjualan per kategori.


## Jawaban

## Data perbulan

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(dplyr)
library(readr)
library(DT)

# Membaca file data asli dari 3 bulan
januari <- read_csv("Data/januari.csv")
februari <- read_csv("Data/februari.csv")
maret <- read_csv("Data/maret.csv")

# Gabungkan semua data
data_penjualan <- bind_rows(januari, februari, maret)

# Lihat ukuran dataset
dimensi_data <- dim(data_penjualan)

# Fungsi untuk menampilkan data interaktif
display_interactive <- function(data, month_name) {
  cat(paste0("## Data bulan ", month_name, "\n\n"))
  data %>%
    slice_head(n = 50) %>%  # Ambil 50 baris pertama
    datatable(options = list(pageLength = 10, lengthMenu = c(10)))  # 10 baris per slide
}

# Tampilkan data untuk masing-masing bulan
display_interactive(januari, "Januari")
display_interactive(februari, "Februari")
display_interactive(maret, "Maret")
```

Disini ketiga file CSV(januari.csv, februari.csv, maret.csv) digabung menjadi satu dataset dengan 150 baris dan 9 kolom di dalam file tersebut. 

## Data Cleaning

```{r, warning=FALSE, message=FALSE, echo=FALSE}
library(dplyr)
library(readr)
library(stringr)
library(lubridate)

# Membaca file data asli dari 3 bulan
januari <- read_csv("Data/januari.csv")
februari <- read_csv("Data/februari.csv")
maret <- read_csv("Data/maret.csv")

# Gabungkan semua data
data_penjualan <- bind_rows(januari, februari, maret)

# Proses cleaning
data_bersih <- data_penjualan %>%
  mutate(
    Tanggal = dmy(Tanggal),
    Harga = str_remove_all(as.character(Harga), "[^0-9]"),
    Harga = as.numeric(Harga),
    Jumlah = recode(Jumlah,
                    "satu" = "1",
                    "dua" = "2",
                    "tiga" = "3",
                    "empat" = "4",
                    "lima" = "5",
                    .default = as.character(Jumlah)),
    Jumlah = as.numeric(Jumlah),
    Total = if_else(is.na(Total) | Total == "NA", Harga * Jumlah, as.numeric(Total))
  ) %>%
  mutate(across(where(is.character), ~replace(., . %in% c("-", "Rp", "_anonymous_"), NA))) %>%
  filter(!is.na(Produk))
```

Di data cleaning ini kita membersihkan data:

1. Tanggal : Mengubah format dari 01-01-2024 menjadi 2024-01-01.

2. Harga : Dibersihkan dari format "750.000" menjadi 750000. Nilai yang tidak valid menjadi NA.

3. Jumlah: Kata seperti "dua" diubah menjadi 2, dan kolom ini menjadi numerik.

4. Total: Dihitung ulang sebagai Harga × Jumlah, menghasilkan nilai seperti 1500000 untuk Harga 750000 dan Jumlah 2.

5. Nilai Tidak Valid: Nilai seperti "-", "anonymous", atau "Rp" diganti dengan NA.

6. Produk Kosong: Baris tanpa produk valid (kosong atau "-") dihapus, mengurangi jumlah baris (misalnya, dari 150 menjadi ~120, tergantung data).

```{r, warning=FALSE, message=FALSE, echo=FALSE}
library(DT)

tampilkan_data_per_bulan <- function(data, bulan_angka, bulan_nama) {
  cat(paste0("## Data Bulan ", bulan_nama, " (Setelah Cleaning)\n\n"))
  
  data %>%
    filter(month(Tanggal) == bulan_angka) %>%
    slice_head(n = 50) %>%
    datatable(options = list(pageLength = 10, lengthMenu = c(10, 25, 50)))
}

tampilkan_data_per_bulan(data_bersih, 1, "Januari")
tampilkan_data_per_bulan(data_bersih, 2, "Februari")
tampilkan_data_per_bulan(data_bersih, 3, "Maret")
tampilkan_data_per_bulan(data_bersih, 4, "April")
```

## Data Transformasi

```{r, warning=FALSE, message=FALSE, echo=FALSE}
library(dplyr)
library(lubridate)

# Pastikan kita bekerja dengan data yang sudah dibersihkan
# Tambahkan kolom Bulan (format nama bulan panjang)
data_bersih <- data_bersih %>%
  mutate(Bulan = month(Tanggal, label = TRUE, abbr = FALSE))

# Total penjualan per kategori
penjualan_per_kategori <- data_bersih %>%
  group_by(Kategori) %>%
  summarise(Total_Penjualan = sum(Total, na.rm = TRUE)) %>%
  arrange(desc(Total_Penjualan))

# Jumlah transaksi per kota
transaksi_per_kota <- data_bersih %>%
  group_by(Kota) %>%
  summarise(Jumlah_Transaksi = n()) %>%
  arrange(desc(Jumlah_Transaksi))

# Total penjualan per bulan
penjualan_per_bulan <- data_bersih %>%
  group_by(Bulan) %>%
  summarise(Total_Penjualan = sum(Total, na.rm = TRUE)) %>%
  arrange(match(Bulan, month.name))  # urutkan sesuai urutan bulan
```

```{r, warning=FALSE, message=FALSE, echo=FALSE}
library(DT)

# Tampilkan tabel interaktif
cat("## 🔸 Total Penjualan per Kategori\n\n")
datatable(penjualan_per_kategori, options = list(pageLength = 5))

cat("## 🔸 Jumlah Transaksi per Kota\n\n")
datatable(transaksi_per_kota, options = list(pageLength = 5))

cat("## 🔸 Total Penjualan per Bulan\n\n")
datatable(penjualan_per_bulan, options = list(pageLength = 5))
```

## Grafik

```{r, warning=FALSE, message=FALSE, echo=FALSE}
library(plotly)
library(dplyr)
library(lubridate)

## 1. BAR CHART DATA AWAL — Jumlah transaksi per kategori SEBELUM cleaning
data_awal_kategori <- data_penjualan %>%
  group_by(Kategori) %>%
  summarise(Jumlah = n())

plot_ly(data_awal_kategori,
        x = ~Kategori,
        y = ~Jumlah,
        type = "bar",
        marker = list(color = 'darkorange')) %>%
  layout(title = "Jumlah Transaksi per Kategori (Sebelum Cleaning)",
         xaxis = list(title = "Kategori"),
         yaxis = list(title = "Jumlah Transaksi"))
```

Grafik ini menunjukkan jumlah transaksi untuk tiga kategori: Aksesoris, Elektronik, dan Fashion, sebelum data dibersihkan.

- Aksesoris: 40 transaksi.
- Elektronik: 37 transaksi.
- Fashion: 34 transaksi.

Sebelum data dibersihkan, kategori Aksesoris memiliki jumlah transaksi tertinggi (40), lalu Elektronik (37) dan Fashion (34). Angka ini mencerminkan data mentah, yang mungkin masih mencakup transaksi tidak valid seperti entri tanpa produk atau data kosong. Jadi, jumlah transaksi ini bisa lebih tinggi dari yang seharusnya karena belum difilter.

```{r, warning=FALSE, message=FALSE, echo=FALSE}
library(plotly)
library(dplyr)
library(lubridate)

## 2. BAR CHART DATA SETELAH CLEANING — Jumlah transaksi per kategori
data_bersih_kategori <- data_bersih %>%
  group_by(Kategori) %>%
  summarise(Jumlah = n())

plot_ly(data_bersih_kategori,
        x = ~Kategori,
        y = ~Jumlah,
        type = "bar",
        marker = list(color = 'seagreen')) %>%
  layout(title = "Jumlah Transaksi per Kategori (Setelah Cleaning)",
         xaxis = list(title = "Kategori"),
         yaxis = list(title = "Jumlah Transaksi"))
```

Grafik ini menunjukkan jumlah transaksi untuk kategori yang sama setelah data dibersihkan.

- Aksesoris: Sekitar 35 transaksi.
- Elektronik: Sekitar 30 transaksi.
- Fashion: Sekitar 24 transaksi.

Setelah pembersihan data, jumlah transaksi di semua kategori menurun karena transaksi tidak valid atau telah dihapus. Aksesoris tetap memiliki transaksi terbanyak 36, tetapi turun dari 40, Elektronik turun dari 37 ke angka 30 dan Fashion masing-masing turun dari 34 menjadi 24 transaksi. Penurunan ini menunjukkan bahwa ada transaksi tidak valid yang dihapus, sehingga data menjadi lebih akurat dan hanya mencerminkan transaksi yang benar-benar valid.

```{r, warning=FALSE, message=FALSE, echo=FALSE}
library(plotly)
library(dplyr)
library(lubridate)
## 3. BAR CHART HASIL TRANSFORMASI — Total penjualan per kategori
penjualan_per_kategori <- data_bersih %>%
  group_by(Kategori) %>%
  summarise(Total_Penjualan = sum(Total, na.rm = TRUE))

plot_ly(penjualan_per_kategori,
        x = ~Kategori,
        y = ~Total_Penjualan,
        type = "bar",
        marker = list(color = 'steelblue')) %>%
  layout(title = "Total Penjualan per Kategori (Transformasi)",
         xaxis = list(title = "Kategori"),
         yaxis = list(title = "Total Penjualan (Rp)"))
```

Grafik ini menunjukkan total penjualan (dalam Rupiah) untuk setiap kategori setelah data dibersihkan dan kolom Total dihitung ulang (Harga × Jumlah).

- Aksesoris: Sekitar Rp350 juta.
- Elektronik: Sekitar Rp400 juta.
- Fashion: Sekitar Rp450 juta.

Fashion memiliki total penjualan tertinggi (Rp450 juta), diikuti oleh Elektronik (Rp400 juta), dan Aksesoris (Rp350 juta). Meskipun Aksesoris memiliki jumlah transaksi terbanyak (35 setelah cleaning), total penjualannya paling rendah. Ini menunjukkan bahwa produk Aksesoris mungkin lebih murah atau dibeli dalam jumlah kecil per transaksi. Sebaliknya, Fashion dengan transaksi lebih sedikit (25) menghasilkan penjualan tertinggi, mengindikasikan bahwa produk Fashion cenderung lebih mahal atau memiliki volume penjualan lebih besar per transaksi. Elektronik berada di tengah, dengan penjualan yang cukup tinggi meskipun jumlah transaksi sama dengan Fashion.

