Ujian Tengah Semester 2

Data Science Programming

Isnaini Nur Hasanah (52240005)

April 18, 2025

Logo

1 Operasi dan Tipe Data Dasar

Buat program sederhana dalam R yang melakukan hal berikut:

  1. Menerima dua bilangan dari pengguna

  2. Menghitung dan menampilkan hasil:

  • Penjumlahan
  • Perkalian
  • Pembagian
  • Bilangan pertama pangkat bilangan kedua
  1. Menampilkan tipe data masing-masing hasil operasi
# Fungsi untuk masing-masing operasi
penjumlahan <- function(a, b) {
  return(a + b)
}

perkalian <- function(a, b) {
  return(a * b)
}

pembagian <- function(a, b) {
  if (is.na(b) || b == 0) {
    return("Tidak bisa dibagi dengan nol atau input tidak valid")
  } else {
    return(a / b)
  }
}

pangkat <- function(a, b) {
  return(a ^ b)
}

# Minta input dari pengguna
a <- as.numeric(readline(prompt = "Masukkan bilangan pertama: "))
## Masukkan bilangan pertama:
b <- as.numeric(readline(prompt = "Masukkan bilangan kedua: "))
## Masukkan bilangan kedua:
# Lakukan operasi
hasil_tambah <- penjumlahan(a, b)
hasil_kali <- perkalian(a, b)
hasil_bagi <- pembagian(a, b)
hasil_pangkat <- pangkat(a, b)

# Tampilkan hasil dan tipe datanya
cat("\n=== HASIL OPERASI ===\n")
## 
## === HASIL OPERASI ===
cat("Penjumlahan:", hasil_tambah, "| Tipe:", class(hasil_tambah), "\n")
## Penjumlahan: NA | Tipe: numeric
cat("Perkalian:", hasil_kali, "| Tipe:", class(hasil_kali), "\n")
## Perkalian: NA | Tipe: numeric
cat("Pembagian:", hasil_bagi, "| Tipe:", class(hasil_bagi), "\n")
## Pembagian: Tidak bisa dibagi dengan nol atau input tidak valid | Tipe: character
cat("Pangkat:", hasil_pangkat, "| Tipe:", class(hasil_pangkat), "\n")
## Pangkat: NA | Tipe: numeric

2 Struktur Kendali (Control Flow)

Tulislah program dalam R yang:

  1. Menerima input nilai ujian dari pengguna (0–100)

  2. Menampilkan keterangan berdasarkan ketentuan berikut:

  • Nilai ≥ 85: “Sangat Baik”
  • Nilai 70–84: “Baik”
  • Nilai 60–69: “Cukup”
  • Nilai < 60: “Perlu Perbaikan”
# Menerima input dari pengguna
nilai <- as.numeric(readline(prompt = "Masukkan nilai ujian (0-100): "))
## Masukkan nilai ujian (0-100):
# Mengecek apakah input valid
if (is.na(nilai) || nilai < 0 || nilai > 100) {
  cat("Input tidak valid. Harap masukkan angka antara 0 dan 100.\n")
} else {
  # Menentukan keterangan berdasarkan nilai
  if (nilai >= 85) {
    keterangan <- "Sangat Baik"
  } else if (nilai >= 70) {
    keterangan <- "Baik"
  } else if (nilai >= 60) {
    keterangan <- "Cukup"
  } else {
    keterangan <- "Perlu Perbaikan"
  }

  # Menampilkan hasil
  cat("Nilai:", nilai, "\n")
  cat("Keterangan:", keterangan, "\n")
}
## Input tidak valid. Harap masukkan angka antara 0 dan 100.

3 Fungsi dan Perulangan

Buatlah fungsi dalam R bernama kelipatan_genap(n) yang:

  1. Menerima input integer n

  2. Menggunakan loop untuk mencetak semua bilangan genap kelipatan 4 dari 1 hingga n

  3. Contoh output jika n = 20: 4, 8, 12, 16, 20

kelipatan_genap <- function(n) {
  # Validasi input: harus bilangan bulat positif
  if (is.na(n) || !is.numeric(n) || n <= 0 || n != floor(n)) {
    cat("Input harus berupa bilangan bulat positif.\n")
    return()
  }

  cat("Bilangan genap kelipatan 4 dari 1 hingga", n, ":\n")
  
  hasil <- c()  # vektor penampung hasil
  for (i in 1:n) {
    if (i %% 4 == 0) {
      hasil <- c(hasil, i)
    }
  }
  
  # Tampilkan hasil sebagai daftar angka yang dipisah koma
  cat(paste(hasil, collapse = ", "), "\n")
}

4 Studi Kasus

Sebuah perusahaan e-commerce ingin menganalisis performa penjualannya berdasarkan data transaksi selama 3 bulan terakhir. Namun, data yang tersedia berasal dari berbagai sumber dan memiliki kualitas yang beragam. Anda diminta untuk melakukan Data Wrangling sebelum dianalisis lebih lanjut.

Bagian 1: Data Collection

Asumsikan data berasal dari 3 file CSV berbeda (januari.csv, februari.csv, maret.csv).

Tugas Anda:

  1. Gabungkan ketiga file menjadi satu dataset.

  2. Tampilkan jumlah total baris dan kolom setelah digabung.

## Jumlah Baris: 150
## Jumlah Kolom: 9

Interpretasi

Setelah proses penggabungan data dari tiga file transaksi bulanan (Januari, Februari, dan Maret), diperoleh total 150 entri transaksi atau baris data. Ini menunjukkan bahwa masing-masing file kemungkinan berisi sekitar 50 transaksi. Sementara itu, terdapat 9 kolom pada dataset gabungan, yang mengindikasikan bahwa setiap transaksi tercatat dengan 9 atribut atau variabel — seperti tanggal transaksi, nama produk, jumlah, harga, kota, dan kategori.

Bagian 2: Data Cleaning

Lakukan pembersihan data berikut:

  1. Standarkan format tanggal ke bentuk YYYY-MM-DD.

  2. Ubah kolom Harga dan Jumlah menjadi format numerik.

  3. Hitung ulang nilai kolom Total = Harga * Jumlah.

  4. Ganti nilai yang tidak valid (contoh: -, “dua”, “Rp”, “anonymous”) dengan nilai yang sesuai atau NA.

  5. Hapus baris yang tidak memiliki nama produk (Produk kosong atau -).

Interpretasi

Pada tahap ini, dilakukan proses pembersihan data untuk memastikan kualitas dan konsistensi dataset sebelum dianalisis lebih lanjut. Pertama, format tanggal diseragamkan ke bentuk standar YYYY-MM-DD, agar mudah diolah dalam analisis waktu. Kedua, kolom Harga dan Jumlah yang sebelumnya mengandung teks atau simbol tidak valid seperti “Rp”, “dua”, atau “-” dikonversi ke format numerik menggunakan fungsi pembersih khusus. Kemudian, nilai pada kolom Total dihitung ulang sebagai hasil perkalian antara Harga dan Jumlah, memastikan akurasi data transaksi. Selanjutnya, entri dengan nilai tidak valid secara otomatis diganti dengan NA, sehingga tidak mengganggu perhitungan statistik. Terakhir, baris-baris yang tidak memiliki nama produk (misalnya Produk kosong atau tanda “-”) dihapus agar hanya data yang relevan yang dipertahankan. Hasilnya, dataset menjadi lebih bersih, rapi, dan siap untuk dianalisis lebih lanjut.

Bagian 3: Data Transformation

Lakukan transformasi data sebagai berikut:

  1. Buat kolom baru Bulan berdasarkan tanggal transaksi.

  2. Hitung total penjualan (Total) per kategori produk.

  3. Hitung jumlah transaksi dari setiap kota.

  4. Buat ringkasan jumlah total penjualan per bulan.

Output yang Diharapkan:

  1. Dataset yang sudah bersih dan rapi.

  2. Tabel agregat: total penjualan per kategori, kota, dan bulan.

  3. Visualisasi opsional: grafik batang, grafik lingkaran dan grafik garis penjualan per kategori.

Total Penjualan per Kategori
Kategori Total Penjualan
123009750
Aksesoris 331762000
Elektronik 167006750
Fashion 225006750
Jumlah Transaksi per Kota
Kota Jumlah Transaksi
- 30
Bandung 33
Jakarta 29
Surabaya 30
Ringkasan Penjualan per Bulan
Bulan Total Penjualan
2024-01 195757500
2024-02 286761250
2024-03 318008250
2024-04 46258250

Visualisasi

Interpretasi

Berdasarkan output yang didapatkan, dapat disimpulkan beberapa hal penting terkait performa penjualan dan distribusi transaksi:

  1. Kategori Produk: Kategori Aksesoris mencatat total penjualan tertinggi sebesar Rp331.762.000, disusul oleh Fashion sebesar Rp225.006.750, dan Elektronik sebesar Rp167.006.750. Terdapat pula data penjualan sebesar Rp123.009.750 yang tidak tercatat dalam kategori tertentu (kemungkinan akibat data tidak lengkap atau kategori kosong). Hal ini menunjukkan bahwa produk Aksesoris paling mendominasi dalam penjualan selama periode yang dianalisis.

  2. Distribusi Kota: Kota dengan jumlah transaksi terbanyak adalah Bandung (33 transaksi), diikuti oleh Surabaya (30 transaksi) dan Jakarta (29 transaksi). Namun, terdapat pula 30 transaksi yang tidak memiliki informasi kota (dilambangkan dengan tanda “-”), yang perlu ditelusuri lebih lanjut karena bisa memengaruhi analisis geografis secara akurat.

  3. Tren Penjualan Bulanan: Penjualan tertinggi terjadi pada bulan Maret 2024 dengan total Rp318.008.250, diikuti oleh Februari (Rp286.761.250) dan Januari (Rp195.757.500). Namun, terjadi penurunan tajam pada April 2024, di mana total penjualan hanya mencapai Rp46.258.250. Penurunan ini dapat menjadi perhatian, apakah disebabkan oleh musim, promosi yang berkurang, atau faktor eksternal lainnya.

---
title: "Ujian Tengah Semester 2"
subtitle: "Data Science Programming"
author: 
  "Isnaini Nur Hasanah (52240005)"
date:  "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::downcute:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    css: "style (1).css"
    params:
  echo: false
editor_options: 
  markdown: 
    wrap: 72
---

<img id="Isna" src="C:\Users\ASUS\Desktop\Statistika Dasar\Isna.png" alt="Logo" style="width:200px; display: block; margin: auto;">

# Operasi dan Tipe Data Dasar

Buat program sederhana dalam R yang melakukan hal berikut:

a. Menerima dua bilangan dari pengguna

b. Menghitung dan menampilkan hasil:
- Penjumlahan
- Perkalian
- Pembagian
- Bilangan pertama pangkat bilangan kedua

c. Menampilkan tipe data masing-masing hasil operasi

```{r, message=FALSE, warning=FALSE, echo=TRUE}
# Fungsi untuk masing-masing operasi
penjumlahan <- function(a, b) {
  return(a + b)
}

perkalian <- function(a, b) {
  return(a * b)
}

pembagian <- function(a, b) {
  if (is.na(b) || b == 0) {
    return("Tidak bisa dibagi dengan nol atau input tidak valid")
  } else {
    return(a / b)
  }
}

pangkat <- function(a, b) {
  return(a ^ b)
}

# Minta input dari pengguna
a <- as.numeric(readline(prompt = "Masukkan bilangan pertama: "))
b <- as.numeric(readline(prompt = "Masukkan bilangan kedua: "))

# Lakukan operasi
hasil_tambah <- penjumlahan(a, b)
hasil_kali <- perkalian(a, b)
hasil_bagi <- pembagian(a, b)
hasil_pangkat <- pangkat(a, b)

# Tampilkan hasil dan tipe datanya
cat("\n=== HASIL OPERASI ===\n")
cat("Penjumlahan:", hasil_tambah, "| Tipe:", class(hasil_tambah), "\n")
cat("Perkalian:", hasil_kali, "| Tipe:", class(hasil_kali), "\n")
cat("Pembagian:", hasil_bagi, "| Tipe:", class(hasil_bagi), "\n")
cat("Pangkat:", hasil_pangkat, "| Tipe:", class(hasil_pangkat), "\n")
```

# Struktur Kendali (Control Flow)

Tulislah program dalam R yang:

a. Menerima input nilai ujian dari pengguna (0–100)

b. Menampilkan keterangan berdasarkan ketentuan berikut:
- Nilai ≥ 85: “Sangat Baik”
- Nilai 70–84: “Baik”
- Nilai 60–69: “Cukup”
- Nilai < 60: “Perlu Perbaikan”

```{r, message=FALSE, warning=FALSE, echo=TRUE}
# Menerima input dari pengguna
nilai <- as.numeric(readline(prompt = "Masukkan nilai ujian (0-100): "))

# Mengecek apakah input valid
if (is.na(nilai) || nilai < 0 || nilai > 100) {
  cat("Input tidak valid. Harap masukkan angka antara 0 dan 100.\n")
} else {
  # Menentukan keterangan berdasarkan nilai
  if (nilai >= 85) {
    keterangan <- "Sangat Baik"
  } else if (nilai >= 70) {
    keterangan <- "Baik"
  } else if (nilai >= 60) {
    keterangan <- "Cukup"
  } else {
    keterangan <- "Perlu Perbaikan"
  }

  # Menampilkan hasil
  cat("Nilai:", nilai, "\n")
  cat("Keterangan:", keterangan, "\n")
}
```

# Fungsi dan Perulangan

Buatlah fungsi dalam R bernama kelipatan_genap(n) yang:

a. Menerima input integer n

b. Menggunakan loop untuk mencetak semua bilangan genap kelipatan 4 dari 1
hingga n

c. Contoh output jika n = 20: 4, 8, 12, 16, 20

```{r kelipatan-4, message=FALSE, warning=FALSE, echo=TRUE}
kelipatan_genap <- function(n) {
  # Validasi input: harus bilangan bulat positif
  if (is.na(n) || !is.numeric(n) || n <= 0 || n != floor(n)) {
    cat("Input harus berupa bilangan bulat positif.\n")
    return()
  }

  cat("Bilangan genap kelipatan 4 dari 1 hingga", n, ":\n")
  
  hasil <- c()  # vektor penampung hasil
  for (i in 1:n) {
    if (i %% 4 == 0) {
      hasil <- c(hasil, i)
    }
  }
  
  # Tampilkan hasil sebagai daftar angka yang dipisah koma
  cat(paste(hasil, collapse = ", "), "\n")
}
```

# Studi Kasus

Sebuah perusahaan e-commerce ingin menganalisis performa penjualannya berdasarkan
data transaksi selama 3 bulan terakhir. Namun, data yang tersedia berasal dari berbagai
sumber dan memiliki kualitas yang beragam. Anda diminta untuk melakukan Data
Wrangling sebelum dianalisis lebih lanjut.

**Bagian 1: Data Collection**

Asumsikan data berasal dari 3 file CSV berbeda (januari.csv, februari.csv, maret.csv).

Tugas Anda:

a. Gabungkan ketiga file menjadi satu dataset.

b. Tampilkan jumlah total baris dan kolom setelah digabung.

```{r, message=FALSE, warning=FALSE, echo=FALSE}
# a. Membaca dan menggabungkan ketiga file
data_januari <- read.csv("Januari.csv", stringsAsFactors = FALSE)
data_februari <- read.csv("Februari.csv", stringsAsFactors = FALSE)
data_maret <- read.csv("Maret.csv", stringsAsFactors = FALSE)

# Gabungkan semua data menggunakan rbind
data_gabungan <- rbind(data_januari, data_februari, data_maret)

# b. Menampilkan jumlah total baris dan kolom
cat("Jumlah Baris:", nrow(data_gabungan), "\n")
cat("Jumlah Kolom:", ncol(data_gabungan), "\n")

# Menampilkan data
head(data_gabungan,10)
```

**Interpretasi**

Setelah proses penggabungan data dari tiga file transaksi bulanan (Januari, Februari, dan Maret), diperoleh total 150 entri transaksi atau baris data. Ini menunjukkan bahwa masing-masing file kemungkinan berisi sekitar 50 transaksi. Sementara itu, terdapat 9 kolom pada dataset gabungan, yang mengindikasikan bahwa setiap transaksi tercatat dengan 9 atribut atau variabel — seperti tanggal transaksi, nama produk, jumlah, harga, kota, dan kategori. 

**Bagian 2: Data Cleaning**

Lakukan pembersihan data berikut:

a. Standarkan format tanggal ke bentuk YYYY-MM-DD.

b. Ubah kolom Harga dan Jumlah menjadi format numerik.

c. Hitung ulang nilai kolom Total = Harga * Jumlah.

d. Ganti nilai yang tidak valid (contoh: -, "dua", "Rp", "_anonymous_") dengan nilai
yang sesuai atau NA.

e. Hapus baris yang tidak memiliki nama produk (Produk kosong atau -).

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(dplyr)
library(readr)
library(lubridate)
library(stringr)
library(DT)

# a. Standarkan format tanggal ke YYYY-MM-DD
data_gabungan$Tanggal <- as.Date(data_gabungan$Tanggal, format = "%d-%m-%Y")

# b. Ubah kolom Harga dan Jumlah menjadi numerik
# Fungsi untuk membersihkan data numerik
clean_numeric <- function(x) {
  x <- as.character(x)
  x <- str_replace_all(x, "Rp|,|\\-|dua|anonymous|_anonymous_| ", "")
  if (tolower(x) %in% c("", "na", "nan")) return(NA_real_)
  suppressWarnings(as.numeric(x))
}

data_gabungan <- data_gabungan %>%
  mutate(
    Harga = sapply(Harga, clean_numeric),
    Jumlah = sapply(Jumlah, clean_numeric)
  )

# c. Hitung ulang nilai kolom Total = Harga * Jumlah
data_gabungan <- data_gabungan %>%
  mutate(Total = Harga * Jumlah)

# d. Ganti nilai yang tidak valid (-, "dua", "Rp", "_anonymous_") sudah ditangani di fungsi clean_numeric

# e. Hapus baris yang tidak memiliki nama produk (Produk kosong atau "-")
data_gabungan <- data_gabungan %>%
  filter(!(Produk %in% c("", "-", NA)))

# Tampilkan hasil sebagai tabel interaktif
datatable(head(data_gabungan, 10), caption = "Tabel Interaktif: 10 Baris Pertama Data Setelah Pembersihan")
```

**Interpretasi**

Pada tahap ini, dilakukan proses pembersihan data untuk memastikan kualitas dan konsistensi dataset sebelum dianalisis lebih lanjut. Pertama, format tanggal diseragamkan ke bentuk standar YYYY-MM-DD, agar mudah diolah dalam analisis waktu. Kedua, kolom Harga dan Jumlah yang sebelumnya mengandung teks atau simbol tidak valid seperti "Rp", "dua", atau "-" dikonversi ke format numerik menggunakan fungsi pembersih khusus. Kemudian, nilai pada kolom Total dihitung ulang sebagai hasil perkalian antara Harga dan Jumlah, memastikan akurasi data transaksi. Selanjutnya, entri dengan nilai tidak valid secara otomatis diganti dengan NA, sehingga tidak mengganggu perhitungan statistik. Terakhir, baris-baris yang tidak memiliki nama produk (misalnya Produk kosong atau tanda "-") dihapus agar hanya data yang relevan yang dipertahankan. Hasilnya, dataset menjadi lebih bersih, rapi, dan siap untuk dianalisis lebih lanjut.

**Bagian 3: Data Transformation**

Lakukan transformasi data sebagai berikut:

a. Buat kolom baru Bulan berdasarkan tanggal transaksi.

b. Hitung total penjualan (Total) per kategori produk.

c. Hitung jumlah transaksi dari setiap kota.

d. Buat ringkasan jumlah total penjualan per bulan.

**Output yang Diharapkan:**

a. Dataset yang sudah bersih dan rapi.

b. Tabel agregat: total penjualan per kategori, kota, dan bulan.

c. Visualisasi opsional: grafik batang, grafik lingkaran dan grafik garis penjualan per
kategori.

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(dplyr)
library(lubridate)
library(readr)
library(knitr)
library(DT)

# Pastikan kolom 'Tanggal' sudah dalam format Date
data_gabungan$Tanggal <- as.Date(data_gabungan$Tanggal)

# a. Buat kolom Bulan
data_gabungan$Bulan <- format(data_gabungan$Tanggal, "%Y-%m")

# b. Total penjualan per kategori
if (all(c("Kategori", "Total") %in% names(data_gabungan))) {
  total_per_kategori <- data_gabungan %>%
    group_by(Kategori) %>%
    summarise(`Total Penjualan` = sum(Total, na.rm = TRUE))
} else {
  total_per_kategori <- data.frame()
}

# c. Jumlah transaksi per kota
if ("Kota" %in% names(data_gabungan)) {
  transaksi_per_kota <- data_gabungan %>%
    count(Kota, name = "Jumlah Transaksi")
} else {
  transaksi_per_kota <- data.frame()
}

# d. Ringkasan penjualan per bulan
if (all(c("Bulan", "Total") %in% names(data_gabungan))) {
  penjualan_per_bulan <- data_gabungan %>%
    group_by(Bulan) %>%
    summarise(`Total Penjualan` = sum(Total, na.rm = TRUE))
} else {
  penjualan_per_bulan <- data.frame()
}

# Tampilkan sebagai tabel statis
kable(total_per_kategori, caption = "Total Penjualan per Kategori")
kable(transaksi_per_kota, caption = "Jumlah Transaksi per Kota")
kable(penjualan_per_bulan, caption = "Ringkasan Penjualan per Bulan")
```

**Visualisasi**

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(plotly)

# a. Grafik batang interaktif - Penjualan per kategori
if (nrow(total_per_kategori) > 0) {
  fig1 <- plot_ly(
    total_per_kategori,
    x = ~Kategori,
    y = ~`Total Penjualan`,
    type = 'bar',
    color = ~Kategori
  ) %>%
    layout(title = "Total Penjualan per Kategori Produk")
  fig1
}

# b. Grafik pie (donut) interaktif - Transaksi per kota
if (nrow(transaksi_per_kota) > 0) {
  fig2 <- plot_ly(
    transaksi_per_kota,
    labels = ~Kota,
    values = ~`Jumlah Transaksi`,
    type = 'pie',
    hole = 0.4
  ) %>%
    layout(title = "Distribusi Transaksi per Kota")
  fig2
}

# c. Grafik garis interaktif - Penjualan per bulan
if (nrow(penjualan_per_bulan) > 0) {
  fig3 <- plot_ly(
    penjualan_per_bulan,
    x = ~Bulan,
    y = ~`Total Penjualan`,
    type = 'scatter',
    mode = 'lines+markers',
    line = list(color = 'green')
  ) %>%
    layout(title = "Tren Total Penjualan per Bulan")
  fig3
}
```

**Interpretasi**

Berdasarkan output yang didapatkan, dapat disimpulkan beberapa hal penting terkait performa penjualan dan distribusi transaksi:

1. Kategori Produk: Kategori Aksesoris mencatat total penjualan tertinggi sebesar Rp331.762.000, disusul oleh Fashion sebesar Rp225.006.750, dan Elektronik sebesar Rp167.006.750. Terdapat pula data penjualan sebesar Rp123.009.750 yang tidak tercatat dalam kategori tertentu (kemungkinan akibat data tidak lengkap atau kategori kosong). Hal ini menunjukkan bahwa produk Aksesoris paling mendominasi dalam penjualan selama periode yang dianalisis.

2. Distribusi Kota: Kota dengan jumlah transaksi terbanyak adalah Bandung (33 transaksi), diikuti oleh Surabaya (30 transaksi) dan Jakarta (29 transaksi). Namun, terdapat pula 30 transaksi yang tidak memiliki informasi kota (dilambangkan dengan tanda "-"), yang perlu ditelusuri lebih lanjut karena bisa memengaruhi analisis geografis secara akurat.

3. Tren Penjualan Bulanan: Penjualan tertinggi terjadi pada bulan Maret 2024 dengan total Rp318.008.250, diikuti oleh Februari (Rp286.761.250) dan Januari (Rp195.757.500). Namun, terjadi penurunan tajam pada April 2024, di mana total penjualan hanya mencapai Rp46.258.250. Penurunan ini dapat menjadi perhatian, apakah disebabkan oleh musim, promosi yang berkurang, atau faktor eksternal lainnya.