UTS Pemrograman Sains Data

Pemrograman Sains Data I

Soal 1

# Menerima dua bilangan dari pengguna
cat("Masukkan bilangan pertama: \n")
## Masukkan bilangan pertama:
a <- 5
cat("Masukkan bilangan kedua: \n")
## Masukkan bilangan kedua:
b <- 4

# Penjumlahan
hasil_penjumlahan <- a + b
cat(sprintf("Penjumlahan antara %.2f dan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_penjumlahan, class(hasil_penjumlahan)))
## Penjumlahan antara 5.00 dan 4.00 adalah 9.00, tipe data: numeric
# Perkalian
hasil_perkalian <- a * b
cat(sprintf("Perkalian antara %.2f dan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_perkalian, class(hasil_perkalian)))
## Perkalian antara 5.00 dan 4.00 adalah 20.00, tipe data: numeric
# Pembagian
hasil_pembagian <- a / b
cat(sprintf("Pembagian antara %.2f dan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_pembagian, class(hasil_pembagian)))
## Pembagian antara 5.00 dan 4.00 adalah 1.25, tipe data: numeric
# Bilangan pertama pangkat bilangan kedua
hasil_pangkat <- a ^ b
cat(sprintf("Hasil Perpangkatan bilangan %.2f dipangkatkan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_pangkat, class(hasil_pangkat)))
## Hasil Perpangkatan bilangan 5.00 dipangkatkan 4.00 adalah 625.00, tipe data: numeric

Soal 2

# Menerima input nilai ujian dari pengguna
cat("Masukkan nilai ujian (0-100): \n")
## Masukkan nilai ujian (0-100):
nilai <- 80

# Memberikan keterangan berdasarkan nilai
if (nilai >= 85) {
  keterangan <- "Sangat Baik"
} else if (nilai >= 70) {
  keterangan <- "Baik"
} else if (nilai >= 60) {
  keterangan <- "Cukup"
} else {
  keterangan <- "Perlu Perbaikan"
}

# Menampilkan hasil
cat(sprintf("Nilai Anda: %.0f, Keterangan: %s\n", nilai, keterangan))
## Nilai Anda: 80, Keterangan: Baik

Soal 3

# Menerima input dari pengguna
cat("Masukkan batas atas (n): \n")
## Masukkan batas atas (n):
n <- 20

# Loop melalui angka kelipatan 4 dari 4 hingga n
hasil <- c()  # Inisialisasi vektor untuk menyimpan hasil
for (i in seq(4, n, by = 4)) {  # seq(start, end, by) untuk langkah 4
  # Memastikan angka adalah bilangan genap (opsional karena kelipatan 4 selalu genap)
  if (i %% 2 == 0) {
    hasil <- c(hasil, i)  # Tambahkan angka ke dalam vektor hasil
  }
}

# Menampilkan hasil dengan koma, tanpa koma terakhir
cat("Jika batas atas (n):", n,";", paste(hasil, collapse = ", "), "\n")
## Jika batas atas (n): 20 ; 4, 8, 12, 16, 20

Soal 4

Bagian 1: Data Collection

# Library yang diperlukan
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

# Membaca file CSV
januari <- read.csv("januari.csv")
februari <- read.csv("februari.csv")
maret <- read.csv("maret.csv")

# Menggabungkan dataset
combined_data <- bind_rows(januari, februari, maret)

# Menampilkan jumlah baris dan kolom
total_rows <- nrow(combined_data)
total_columns <- ncol(combined_data)
cat(sprintf("Total rows: %d, Total columns: %d\n", total_rows, total_columns))
## Total rows: 150, Total columns: 9
print(head(combined_data))
##   OrderID    Tanggal       Produk  Kategori     Harga Jumlah Total     Pembeli
## 1    1001 01-01-2024     Laptop A            15000000  empat    NA       Budi@
## 2    1002 02-01-2024  Tas Branded   Fashion  15000000      2    NA       Budi@
## 3    1003 03-01-2024  Tas Branded Aksesoris  15000000      3    NA _anonymous_
## 4    1004 04-01-2024       Kemeja            15000000    dua    NA     Andi123
## 5    1005 05-01-2024            -   Fashion Rp750.000      3    NA _anonymous_
## 6    1006 06-01-2024 Smartphone X   Fashion  15000000  empat    NA     Sinta99
##       Kota
## 1  Bandung
## 2 Surabaya
## 3  Bandung
## 4  Bandung
## 5  Jakarta
## 6  Bandung

Bagian 2: Data Cleaning

# a. Standarkan format tanggal ke bentuk YYYY-MM-DD
combined_data$Tanggal <- as.Date(combined_data$Tanggal, format = "%Y-%m-%d")

# b. Ubah kolom Harga dan Jumlah menjadi format numerik
combined_data$Harga <- as.numeric(as.character(combined_data$Harga))
## Warning: NAs introduced by coercion
combined_data$Jumlah <- as.numeric(as.character(combined_data$Jumlah))
## Warning: NAs introduced by coercion
# c. Hitung ulang kolom Total
combined_data$Total <- combined_data$Harga * combined_data$Jumlah

# d. Ganti nilai tidak valid dengan NA
invalid_values <- c("-", "dua", "Rp", "_anonymous_")
combined_data <- combined_data %>%
  mutate(across(everything(), ~replace(., . %in% invalid_values, NA)))

# e. Hapus baris yang tidak memiliki nama produk
combined_data_cleaned <- combined_data %>%
  filter(!is.na(Produk) & Produk != "-")

# Melihat dataset yang telah dibersihkan
head(combined_data_cleaned)

Bagian 3: Data Transformation

# Pastikan kolom Tanggal bertipe Date
combined_data_cleaned$Tanggal <- as.Date(combined_data_cleaned$Tanggal, format = "%Y-%m-%d")

# a. Tambah kolom Bulan berdasarkan tanggal transaksi
combined_data_cleaned$Bulan <- format(combined_data_cleaned$Tanggal, "%B")

# b. Hitung total penjualan per kategori (tanpa NA atau kategori kosong)
total_penjualan_per_kategori <- combined_data_cleaned %>%
  filter(!is.na(Kategori) & Kategori != "") %>%  # Hanya kategori valid
  group_by(Kategori) %>%
  summarise(Total_Penjualan = sum(Total, na.rm = TRUE), .groups = "drop")

# c. Hitung jumlah transaksi per kota (tanpa NA atau kota kosong)
jumlah_transaksi_per_kota <- combined_data_cleaned %>%
  filter(!is.na(Kota) & Kota != "") %>%  # Hanya kota valid
  count(Kota, name = "Jumlah_Transaksi") %>%
  ungroup()

# d. Hitung total penjualan per bulan dan urutkan Jan–Apr
month_order <- c("January", "February", "March", "April")
total_penjualan_per_bulan <- combined_data_cleaned %>%
  group_by(Bulan) %>%
  summarise(`Total Penjualan` = sum(Total, na.rm = TRUE), .groups = "drop") %>%
  mutate(Bulan = factor(Bulan, levels = month_order, ordered = TRUE)) %>%
  filter(!is.na(Bulan)) %>%  # Pastikan hanya bulan valid
  arrange(Bulan)

# Menampilkan tabel agregat
cat("Total Penjualan per Kategori:\n")
## Total Penjualan per Kategori:
print(total_penjualan_per_kategori)
## # A tibble: 3 × 2
##   Kategori   Total_Penjualan
##   <chr>                <dbl>
## 1 Aksesoris        331750000
## 2 Elektronik       167000000
## 3 Fashion          225000000
cat("\nJumlah Transaksi per Kota:\n")
## 
## Jumlah Transaksi per Kota:
print(jumlah_transaksi_per_kota)
##       Kota Jumlah_Transaksi
## 1  Bandung               33
## 2  Jakarta               29
## 3 Surabaya               30
cat("\nTotal Penjualan per Bulan (Jan–Apr):\n")
## 
## Total Penjualan per Bulan (Jan–Apr):
print(total_penjualan_per_bulan)
## # A tibble: 4 × 2
##   Bulan    `Total Penjualan`
##   <ord>                <dbl>
## 1 January          195750000
## 2 February         286750000
## 3 March            318000000
## 4 April             46250000

Bagian 4: Visualisasi Data

library(ggplot2)
library(scales) # Untuk format angka dan persentase

# Grafik batang - Total penjualan per kategori (dengan angka di atas batang)
ggplot(total_penjualan_per_kategori, aes(x = reorder(Kategori, -Total_Penjualan), y = Total_Penjualan)) +
  geom_bar(stat = "identity", fill = "skyblue", width = 0.7) +
  geom_text(aes(label = scales::comma(Total_Penjualan)), vjust = -0.5, size = 3.5) +
  labs(
    title = "Total Penjualan per Kategori",
    x = "Kategori",
    y = "Total Penjualan"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Grafik lingkaran - Persentase transaksi per kota (dengan persentase pada tiap bagian)
jumlah_transaksi_per_kota <- jumlah_transaksi_per_kota %>%
  mutate(Percentage = Jumlah_Transaksi / sum(Jumlah_Transaksi) * 100)

ggplot(jumlah_transaksi_per_kota, aes(x = "", y = Percentage, fill = Kota)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(
    label = paste0(round(Percentage, 1), "%"),
    x = 1.3
  ), position = position_stack(vjust = 0.5), size = 3.5) +
  labs(
    title = "Persentase Transaksi per Kota",
    x = NULL,
    y = NULL
  ) +
  scale_fill_brewer(palette = "Set3") +
  theme_void() +
  theme(
    legend.title = element_blank(),
    legend.position = "right"
  )

# Grafik garis - Total penjualan per bulan (dengan angka pada tiap titik)
ggplot(total_penjualan_per_bulan, aes(x = Bulan, y = `Total Penjualan`, group = 1)) +
  geom_line(color = "green", size = 1.2) +
  geom_point(color = "red", size = 3) +
  geom_text(aes(label = scales::comma(`Total Penjualan`)), vjust = -0.5, size = 3.5) +
  labs(
    title = "Total Penjualan per Bulan",
    x = "Bulan",
    y = "Total Penjualan"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

---
title: "UTS Pemrograman Sains Data"
subtitle: "Pemrograman Sains Data I"
author: "JOANS HENKY SERVATIUS SIMANULLANG"
date: "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::readthedown:
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    css: "style1.css"
---
<img src="foto.jpeg" style="display: block; margin: auto; width: 360px; height: 480px;" alt="">

# Soal 1
```{r}
# Menerima dua bilangan dari pengguna
cat("Masukkan bilangan pertama: \n")
a <- 5
cat("Masukkan bilangan kedua: \n")
b <- 4

# Penjumlahan
hasil_penjumlahan <- a + b
cat(sprintf("Penjumlahan antara %.2f dan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_penjumlahan, class(hasil_penjumlahan)))

# Perkalian
hasil_perkalian <- a * b
cat(sprintf("Perkalian antara %.2f dan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_perkalian, class(hasil_perkalian)))

# Pembagian
hasil_pembagian <- a / b
cat(sprintf("Pembagian antara %.2f dan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_pembagian, class(hasil_pembagian)))

# Bilangan pertama pangkat bilangan kedua
hasil_pangkat <- a ^ b
cat(sprintf("Hasil Perpangkatan bilangan %.2f dipangkatkan %.2f adalah %.2f, tipe data: %s\n", a, b, hasil_pangkat, class(hasil_pangkat)))
```

# Soal 2
```{r}
# Menerima input nilai ujian dari pengguna
cat("Masukkan nilai ujian (0-100): \n")
nilai <- 80

# Memberikan keterangan berdasarkan nilai
if (nilai >= 85) {
  keterangan <- "Sangat Baik"
} else if (nilai >= 70) {
  keterangan <- "Baik"
} else if (nilai >= 60) {
  keterangan <- "Cukup"
} else {
  keterangan <- "Perlu Perbaikan"
}

# Menampilkan hasil
cat(sprintf("Nilai Anda: %.0f, Keterangan: %s\n", nilai, keterangan))
```

# Soal 3
```{r}
# Menerima input dari pengguna
cat("Masukkan batas atas (n): \n")
n <- 20

# Loop melalui angka kelipatan 4 dari 4 hingga n
hasil <- c()  # Inisialisasi vektor untuk menyimpan hasil
for (i in seq(4, n, by = 4)) {  # seq(start, end, by) untuk langkah 4
  # Memastikan angka adalah bilangan genap (opsional karena kelipatan 4 selalu genap)
  if (i %% 2 == 0) {
    hasil <- c(hasil, i)  # Tambahkan angka ke dalam vektor hasil
  }
}

# Menampilkan hasil dengan koma, tanpa koma terakhir
cat("Jika batas atas (n):", n,";", paste(hasil, collapse = ", "), "\n")
```

# Soal 4

## Bagian 1: Data Collection
```{r}
# Library yang diperlukan
library(dplyr)
library(ggplot2)

# Membaca file CSV
januari <- read.csv("januari.csv")
februari <- read.csv("februari.csv")
maret <- read.csv("maret.csv")

# Menggabungkan dataset
combined_data <- bind_rows(januari, februari, maret)

# Menampilkan jumlah baris dan kolom
total_rows <- nrow(combined_data)
total_columns <- ncol(combined_data)
cat(sprintf("Total rows: %d, Total columns: %d\n", total_rows, total_columns))

print(head(combined_data))
```

## Bagian 2: Data Cleaning
```{r}
# a. Standarkan format tanggal ke bentuk YYYY-MM-DD
combined_data$Tanggal <- as.Date(combined_data$Tanggal, format = "%Y-%m-%d")

# b. Ubah kolom Harga dan Jumlah menjadi format numerik
combined_data$Harga <- as.numeric(as.character(combined_data$Harga))
combined_data$Jumlah <- as.numeric(as.character(combined_data$Jumlah))

# c. Hitung ulang kolom Total
combined_data$Total <- combined_data$Harga * combined_data$Jumlah

# d. Ganti nilai tidak valid dengan NA
invalid_values <- c("-", "dua", "Rp", "_anonymous_")
combined_data <- combined_data %>%
  mutate(across(everything(), ~replace(., . %in% invalid_values, NA)))

# e. Hapus baris yang tidak memiliki nama produk
combined_data_cleaned <- combined_data %>%
  filter(!is.na(Produk) & Produk != "-")

# Melihat dataset yang telah dibersihkan
head(combined_data_cleaned)
```

## Bagian 3: Data Transformation
```{r}
# Pastikan kolom Tanggal bertipe Date
combined_data_cleaned$Tanggal <- as.Date(combined_data_cleaned$Tanggal, format = "%Y-%m-%d")

# a. Tambah kolom Bulan berdasarkan tanggal transaksi
combined_data_cleaned$Bulan <- format(combined_data_cleaned$Tanggal, "%B")

# b. Hitung total penjualan per kategori (tanpa NA atau kategori kosong)
total_penjualan_per_kategori <- combined_data_cleaned %>%
  filter(!is.na(Kategori) & Kategori != "") %>%  # Hanya kategori valid
  group_by(Kategori) %>%
  summarise(Total_Penjualan = sum(Total, na.rm = TRUE), .groups = "drop")

# c. Hitung jumlah transaksi per kota (tanpa NA atau kota kosong)
jumlah_transaksi_per_kota <- combined_data_cleaned %>%
  filter(!is.na(Kota) & Kota != "") %>%  # Hanya kota valid
  count(Kota, name = "Jumlah_Transaksi") %>%
  ungroup()

# d. Hitung total penjualan per bulan dan urutkan Jan–Apr
month_order <- c("January", "February", "March", "April")
total_penjualan_per_bulan <- combined_data_cleaned %>%
  group_by(Bulan) %>%
  summarise(`Total Penjualan` = sum(Total, na.rm = TRUE), .groups = "drop") %>%
  mutate(Bulan = factor(Bulan, levels = month_order, ordered = TRUE)) %>%
  filter(!is.na(Bulan)) %>%  # Pastikan hanya bulan valid
  arrange(Bulan)

# Menampilkan tabel agregat
cat("Total Penjualan per Kategori:\n")
print(total_penjualan_per_kategori)

cat("\nJumlah Transaksi per Kota:\n")
print(jumlah_transaksi_per_kota)

cat("\nTotal Penjualan per Bulan (Jan–Apr):\n")
print(total_penjualan_per_bulan)
```

## Bagian 4: Visualisasi Data
```{r}
library(ggplot2)
library(scales) # Untuk format angka dan persentase

# Grafik batang - Total penjualan per kategori (dengan angka di atas batang)
ggplot(total_penjualan_per_kategori, aes(x = reorder(Kategori, -Total_Penjualan), y = Total_Penjualan)) +
  geom_bar(stat = "identity", fill = "skyblue", width = 0.7) +
  geom_text(aes(label = scales::comma(Total_Penjualan)), vjust = -0.5, size = 3.5) +
  labs(
    title = "Total Penjualan per Kategori",
    x = "Kategori",
    y = "Total Penjualan"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Grafik lingkaran - Persentase transaksi per kota (dengan persentase pada tiap bagian)
jumlah_transaksi_per_kota <- jumlah_transaksi_per_kota %>%
  mutate(Percentage = Jumlah_Transaksi / sum(Jumlah_Transaksi) * 100)

ggplot(jumlah_transaksi_per_kota, aes(x = "", y = Percentage, fill = Kota)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(
    label = paste0(round(Percentage, 1), "%"),
    x = 1.3
  ), position = position_stack(vjust = 0.5), size = 3.5) +
  labs(
    title = "Persentase Transaksi per Kota",
    x = NULL,
    y = NULL
  ) +
  scale_fill_brewer(palette = "Set3") +
  theme_void() +
  theme(
    legend.title = element_blank(),
    legend.position = "right"
  )

# Grafik garis - Total penjualan per bulan (dengan angka pada tiap titik)
ggplot(total_penjualan_per_bulan, aes(x = Bulan, y = `Total Penjualan`, group = 1)) +
  geom_line(color = "green", size = 1.2) +
  geom_point(color = "red", size = 3) +
  geom_text(aes(label = scales::comma(`Total Penjualan`)), vjust = -0.5, size = 3.5) +
  labs(
    title = "Total Penjualan per Bulan",
    x = "Bulan",
    y = "Total Penjualan"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

```


