Pemprogram Sains Data

UTS Pemprograman Sains Data

Logo

1 Operasi dan Tipe Data Dasar

Berikut adalah program sederhana R dalam Operasi dan Tie Data Dasar:

# Meminta input dari pengguna
bil1 <- as.numeric(readline(prompt = "Masukkan bilangan pertama: "))
## Masukkan bilangan pertama:
bil2 <- as.numeric(readline(prompt = "Masukkan bilangan kedua: "))
## Masukkan bilangan kedua:
# Operasi matematika
penjumlahan <- bil1 + bil2
perkalian <- bil1 * bil2
pembagian <- bil1 / bil2
pangkat <- bil1 ^ bil2

# Output sesuai permintaan
cat("Penjumlahan:", penjumlahan, "| Tipe:", class(penjumlahan), "\n")
## Penjumlahan: NA | Tipe: numeric
cat("Perkalian:", perkalian, "| Tipe:", class(perkalian), "\n")
## Perkalian: NA | Tipe: numeric
cat("Pembagian:", pembagian, "| Tipe:", class(pembagian), "\n")
## Pembagian: NA | Tipe: numeric
cat("Pangkat:", pangkat, "| Tipe:", class(pangkat), "\n")
## Pangkat: NA | Tipe: numeric

2 Struktur Kendali (Control Flow)

Berikut adalah program sederhana R dalam Control Flow:

# Menerima input dari pengguna
nilai <- as.numeric(readline(prompt = "Masukkan nilai ujian (0-100): "))
## Masukkan nilai ujian (0-100):
# Mengecek apakah input valid
if (is.na(nilai) || nilai < 0 || nilai > 100) {
  cat("Input tidak valid. Harap masukkan angka antara 0 dan 100.\n")
} else {
  # Menentukan keterangan berdasarkan nilai
  if (nilai >= 85) {
    keterangan <- "Sangat Baik"
  } else if (nilai >= 70) {
    keterangan <- "Baik"
  } else if (nilai >= 60) {
    keterangan <- "Cukup"
  } else {
    keterangan <- "Perlu Perbaikan"
  }

  # Menampilkan hasil
  cat("Nilai:", nilai, "\n")
  cat("Keterangan:", keterangan, "\n")
}
## Input tidak valid. Harap masukkan angka antara 0 dan 100.

3 Fungsi dan Perulangan

Berikut adalah program R sederhana dalam Fungsi dan Perulangan:

kelipatan_genap <- function(n) {
  # Validasi input: harus bilangan bulat positif
  if (is.na(n) || !is.numeric(n) || n <= 0 || n != floor(n)) {
    cat("Input harus berupa bilangan bulat positif.\n")
    return()
  }

  cat("Bilangan genap kelipatan 4 dari 1 hingga", n, ":\n")
  
  hasil <- c()  # vektor penampung hasil
  for (i in 1:n) {
    if (i %% 4 == 0) {
      hasil <- c(hasil, i)
    }
  }
  
  # Tampilkan hasil sebagai daftar angka yang dipisah koma
  cat(paste(hasil, collapse = ", "), "\n")
}

# Minta input dari pengguna
input <- readline(prompt = "Masukkan bilangan bulat positif: ")
## Masukkan bilangan bulat positif:
n <- as.numeric(input)

# Panggil fungsi
kelipatan_genap(n)
## Input harus berupa bilangan bulat positif.
## NULL

4 Studi Kasus

Sebuah perusahaan e-commerce ingin menganalisis performa penjualannya berdasarkan data transaksi selama 3 bulan terakhir. Namun, data yang tersedia berasal dari berbagai sumber dan memiliki kualitas yang beragam.

4.1 Data Collection

## Jumlah Baris: 150 
## Jumlah Kolom: 9

Setelah nggabungin data dari tiga file transaksi bulanan (Januari, Februari, dan Maret), totalnya ada 150 baris transaksi. Ini ngasih gambaran kalau tiap file isinya kira-kira 50 transaksi. Di dataset gabungan ini juga ada 9 kolom, yang nunjukin tiap transaksi punya sembilan info penting — kayak tanggal beli, nama produk, kategori, harga, jumlah yang dibeli, dan juga siapa pembelinya.

4.2 Data Cleaning

Pada tahap ini data nya di bersihkan. Data yang tadinya berantakan sekarang udah dibersihin. Tanggal semua udah disamain jadi format YYYY-MM-DD, harga dan jumlah barang yang tadinya masih ada tulisan kayak “Rp” atau “dua” udah diganti jadi angka.

Kolom Total juga udah dihitung otomatis dari Harga × Jumlah. Kalau ada data yang aneh atau kosong, langsung diganti NA. Produk yang nggak ada namanya juga dihapus.

Sekarang datanya udah rapi dan siap dipakai buat analisis.

4.3 Data Transformasi

Total Penjualan per Kategori
Kategori Total Penjualan
123009750
Aksesoris 331762000
Elektronik 167006750
Fashion 225006750
Jumlah Transaksi per Kota
Kota Jumlah Transaksi
- 30
Bandung 33
Jakarta 29
Surabaya 30
Ringkasan Penjualan per Bulan
Bulan Total Penjualan
2024-01 195757500
2024-02 286761250
2024-03 318008250
2024-04 46258250

4.4 Visualisasi

---
title: "Pemprogram Sains Data"
subtitle: "UTS Pemprograman Sains Data"
author: 
  - "Nova Sitorus 52240023"
date:  "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::readthedown:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    css: "style/style css.css"
---

<style>
  body {
    text-align: justify;
  }
</style>

<img src="NOVA.jpg" alt="Logo" style="width:500px; display: block; margin: auto;"/>

# **Operasi dan Tipe Data Dasar**

Berikut adalah program sederhana R dalam Operasi dan Tie Data Dasar:

```{r, message=FALSE, warning=FALSE, echo=TRUE}
# Meminta input dari pengguna
bil1 <- as.numeric(readline(prompt = "Masukkan bilangan pertama: "))
bil2 <- as.numeric(readline(prompt = "Masukkan bilangan kedua: "))

# Operasi matematika
penjumlahan <- bil1 + bil2
perkalian <- bil1 * bil2
pembagian <- bil1 / bil2
pangkat <- bil1 ^ bil2

# Output sesuai permintaan
cat("Penjumlahan:", penjumlahan, "| Tipe:", class(penjumlahan), "\n")
cat("Perkalian:", perkalian, "| Tipe:", class(perkalian), "\n")
cat("Pembagian:", pembagian, "| Tipe:", class(pembagian), "\n")
cat("Pangkat:", pangkat, "| Tipe:", class(pangkat), "\n")

```

# **Struktur Kendali (Control Flow)**

Berikut adalah program sederhana R dalam Control Flow:

```{r, message=FALSE, warning=FALSE, echo=TRUE}
# Menerima input dari pengguna
nilai <- as.numeric(readline(prompt = "Masukkan nilai ujian (0-100): "))

# Mengecek apakah input valid
if (is.na(nilai) || nilai < 0 || nilai > 100) {
  cat("Input tidak valid. Harap masukkan angka antara 0 dan 100.\n")
} else {
  # Menentukan keterangan berdasarkan nilai
  if (nilai >= 85) {
    keterangan <- "Sangat Baik"
  } else if (nilai >= 70) {
    keterangan <- "Baik"
  } else if (nilai >= 60) {
    keterangan <- "Cukup"
  } else {
    keterangan <- "Perlu Perbaikan"
  }

  # Menampilkan hasil
  cat("Nilai:", nilai, "\n")
  cat("Keterangan:", keterangan, "\n")
}

```

# **Fungsi dan Perulangan**

Berikut adalah program R sederhana dalam Fungsi dan Perulangan:

```{r, message=FALSE, warning=FALSE, echo=TRUE}
kelipatan_genap <- function(n) {
  # Validasi input: harus bilangan bulat positif
  if (is.na(n) || !is.numeric(n) || n <= 0 || n != floor(n)) {
    cat("Input harus berupa bilangan bulat positif.\n")
    return()
  }

  cat("Bilangan genap kelipatan 4 dari 1 hingga", n, ":\n")
  
  hasil <- c()  # vektor penampung hasil
  for (i in 1:n) {
    if (i %% 4 == 0) {
      hasil <- c(hasil, i)
    }
  }
  
  # Tampilkan hasil sebagai daftar angka yang dipisah koma
  cat(paste(hasil, collapse = ", "), "\n")
}

# Minta input dari pengguna
input <- readline(prompt = "Masukkan bilangan bulat positif: ")
n <- as.numeric(input)

# Panggil fungsi
kelipatan_genap(n)
```

# Studi Kasus

Sebuah perusahaan e-commerce ingin menganalisis performa penjualannya berdasarkan
data transaksi selama 3 bulan terakhir. Namun, data yang tersedia berasal dari berbagai
sumber dan memiliki kualitas yang beragam.

## Data Collection

```{r, message=FALSE, warning=FALSE, echo=FALSE}
# Membaca dan menggabungkan ketiga file
if (file.exists("Januari.csv") && file.exists("Februari.csv") && file.exists("Maret.csv")) {
  data_januari <- read.csv("Januari.csv", stringsAsFactors = FALSE)
  data_februari <- read.csv("Februari.csv", stringsAsFactors = FALSE)
  data_maret <- read.csv("Maret.csv", stringsAsFactors = FALSE)

  data_gabungan <- rbind(data_januari, data_februari, data_maret)

  cat("Jumlah Baris:", nrow(data_gabungan), "\n")
  cat("Jumlah Kolom:", ncol(data_gabungan), "\n")

  head(data_gabungan, 10)
} else {
  cat("Satu atau lebih file CSV tidak ditemukan.\n")
}

```
Setelah nggabungin data dari tiga file transaksi bulanan (Januari, Februari, dan Maret), totalnya ada 150 baris transaksi. Ini ngasih gambaran kalau tiap file isinya kira-kira 50 transaksi. Di dataset gabungan ini juga ada 9 kolom, yang nunjukin tiap transaksi punya sembilan info penting — kayak tanggal beli, nama produk, kategori, harga, jumlah yang dibeli, dan juga siapa pembelinya.

## Data Cleaning
```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(dplyr)
library(readr)
library(lubridate)
library(stringr)
library(DT)

# a. Standarkan format tanggal ke YYYY-MM-DD
data_gabungan$Tanggal <- as.Date(data_gabungan$Tanggal, format = "%d-%m-%Y")

# b. Ubah kolom Harga dan Jumlah menjadi numerik
# Fungsi untuk membersihkan data numerik
clean_numeric <- function(x) {
  x <- as.character(x)
  x <- str_replace_all(x, "Rp|,|\\-|dua|anonymous|_anonymous_| ", "")
  if (tolower(x) %in% c("", "na", "nan")) return(NA_real_)
  suppressWarnings(as.numeric(x))
}

data_gabungan <- data_gabungan %>%
  mutate(
    Harga = sapply(Harga, clean_numeric),
    Jumlah = sapply(Jumlah, clean_numeric)
  )

# c. Hitung ulang nilai kolom Total = Harga * Jumlah
data_gabungan <- data_gabungan %>%
  mutate(Total = Harga * Jumlah)

# d. Ganti nilai yang tidak valid (-, "dua", "Rp", "_anonymous_") sudah ditangani di fungsi clean_numeric

# e. Hapus baris yang tidak memiliki nama produk (Produk kosong atau "-")
data_gabungan <- data_gabungan %>%
  filter(!(Produk %in% c("", "-", NA)))

# Tampilkan hasil sebagai tabel interaktif
datatable(head(data_gabungan, 10), caption = "Tabel Interaktif: 10 Baris Pertama Data Setelah Pembersihan")
```
Pada tahap ini data nya di bersihkan. Data yang tadinya berantakan sekarang udah dibersihin. Tanggal semua udah disamain jadi format YYYY-MM-DD, harga dan jumlah barang yang tadinya masih ada tulisan kayak "Rp" atau "dua" udah diganti jadi angka.

Kolom Total juga udah dihitung otomatis dari Harga × Jumlah. Kalau ada data yang aneh atau kosong, langsung diganti NA. Produk yang nggak ada namanya juga dihapus.

Sekarang datanya udah rapi dan siap dipakai buat analisis.

## Data Transformasi

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(dplyr)
library(lubridate)
library(readr)
library(knitr)
library(DT)

# Pastikan kolom 'Tanggal' sudah dalam format Date
data_gabungan$Tanggal <- as.Date(data_gabungan$Tanggal)

# a. Buat kolom Bulan
data_gabungan$Bulan <- format(data_gabungan$Tanggal, "%Y-%m")

# b. Total penjualan per kategori
if (all(c("Kategori", "Total") %in% names(data_gabungan))) {
  total_per_kategori <- data_gabungan %>%
    group_by(Kategori) %>%
    summarise(`Total Penjualan` = sum(Total, na.rm = TRUE))
} else {
  total_per_kategori <- data.frame()
}

# c. Jumlah transaksi per kota
if ("Kota" %in% names(data_gabungan)) {
  transaksi_per_kota <- data_gabungan %>%
    count(Kota, name = "Jumlah Transaksi")
} else {
  transaksi_per_kota <- data.frame()
}

# d. Ringkasan penjualan per bulan
if (all(c("Bulan", "Total") %in% names(data_gabungan))) {
  penjualan_per_bulan <- data_gabungan %>%
    group_by(Bulan) %>%
    summarise(`Total Penjualan` = sum(Total, na.rm = TRUE))
} else {
  penjualan_per_bulan <- data.frame()
}

# Tampilkan sebagai tabel statis
kable(total_per_kategori, caption = "Total Penjualan per Kategori")
kable(transaksi_per_kota, caption = "Jumlah Transaksi per Kota")
kable(penjualan_per_bulan, caption = "Ringkasan Penjualan per Bulan")
```

## **Visualisasi**

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(plotly)

# Grafik Batang - Penjualan per Bulan (warna navy)
if (nrow(penjualan_per_bulan) > 0) {
  fig1 <- plot_ly(
    penjualan_per_bulan,
    x = ~Bulan,
    y = ~`Total Penjualan`,
    type = 'bar',
    marker = list(color = 'blue') 
  ) %>%
    layout(
      title = "Total Penjualan per Bulan (Grafik Batang)",
      xaxis = list(title = "Bulan"),
      yaxis = list(title = "Total Penjualan")
    )
  
  fig1
}

```
