PEMROGRAMAN SAINS DATA 1

EXAM 1 SMT 2

Logo

Membuat Program & Menyelsesaikan Case Study

1. Menerima dua bilangan dari pengguna, Menghitung, dan menampilkan hasil

Buat program sederhana dalam R dan Python yang melakukan hal berikut:

  1. Menerima dua bilangan dari pengguna
  2. Menghitung dan menampilkan hasil:
    • Penjumlahan
    • Perkalian
    • Pembagian
    • Bilangan pertama pangkat bilangan kedua
  3. Menampilkan tipe data masing-masing hasil operasi
# Input dari pengguna secara manual
a <- as.numeric(readline(prompt = "Masukkan nilai a: "))
## Masukkan nilai a:
b <- as.numeric(readline(prompt = "Masukkan nilai b: "))
## Masukkan nilai b:
# Operasi Matematika
penjumlahan <- a + b
perkalian <- a * b
pembagian <- if (!is.na(b) && b != 0) a / b else "Tidak bisa dibagi nol"
pangkat <- a ^ b

# Menampilkan Hasil dan Tipe Data
cat("\nHasil Operasi:\n")
## 
## Hasil Operasi:
cat("Penjumlahan:", penjumlahan, "(Tipe:", class(penjumlahan), ")\n")
## Penjumlahan: NA (Tipe: numeric )
cat("Perkalian:", perkalian, "(Tipe:", class(perkalian), ")\n")
## Perkalian: NA (Tipe: numeric )
cat("Pembagian:", pembagian, "(Tipe:", class(pembagian), ")\n")
## Pembagian: Tidak bisa dibagi nol (Tipe: character )
cat("Pangkat:", pangkat, "(Tipe:", class(pangkat), ")\n")
## Pangkat: NA (Tipe: numeric )

2. Menerima input & Menampilkan keterangan

Tulislah program dalam R dan Python yang:

  1. Menerima input nilai ujian dari pengguna (0–100)

  2. Menampilkan keterangan berdasarkan ketentuan berikut:

    • Nilai ≥ 85: “Sangat Baik”
    • Nilai 70–84: “Baik”
    • Nilai 60–69: “Cukup”
    • Nilai < 60: “Perlu Perbaikan”
# Nilai default agar tidak error saat knitting
nilai <- 90  # ganti dengan nilai simulasi sesuai kebutuhan

# Struktur kendali dengan perlindungan terhadap NA
if (!is.na(nilai) && nilai >= 85) {
  keterangan <- "Sangat Baik"
} else if (!is.na(nilai) && nilai >= 70) {
  keterangan <- "Baik"
} else if (!is.na(nilai) && nilai >= 60) {
  keterangan <- "Cukup"
} else if (!is.na(nilai)) {
  keterangan <- "Perlu Perbaikan"
} else {
  keterangan <- "Nilai tidak valid"
}

# Menampilkan hasil
cat("Nilai Anda:", nilai, "\n")
## Nilai Anda: 90
cat("Keterangan:", keterangan, "\n")
## Keterangan: Sangat Baik

3. Menerima input integer n & Menggunakan loop untuk mencetak semua bilangan genap kelipatan 4 dari 1 hingga n

Buatlah fungsi dalam R dan Python bernama kelipatan_genap(n) yang:

  1. Menerima input integer n
  2. Menggunakan loop untuk mencetak semua bilangan genap kelipatan 4 dari 1 hingga n
  3. Contoh output jika n = 20: 4, 8, 12, 16, 20
kelipatan_genap <- function(n) {
  for (i in 1:n) {
    if (i %% 2 == 0 && i %% 4 == 0) {
      cat(i, " ")
    }
  }
}

# Simulasi input nilai n (bisa diganti sesuai kebutuhan)
n <- 20  # ganti sesuai contoh yang kamu inginkan

# Panggil fungsi
kelipatan_genap(n)
## 4  8  12  16  20

4. Case Study

Sebuah perusahaan e-commerce ingin menganalisis performa penjualannya berdasarkan data transaksi selama 3 bulan terakhir. Namun, data berasal dari berbagai sumber dan memiliki kualitas yang berbeda-beda. Oleh karena itu, proses Data Wrangling sangat penting dilakukan sebelum analisis lanjutan.

Bagian 1: Data Collection

Tugas:

  1. Gabungkan data dari tiga file CSV (data_penjualan_kuartal1_full - Januari.csv, Februari.csv, Maret.csv) menjadi satu dataset.
  2. Tampilkan jumlah total baris dan kolom.

Tujuan Pengumpulan Data

Pengumpulan data penjualan dari tiga bulan pertama tahun ini (Januari–Maret) dilakukan untuk beberapa tujuan utama berikut:

  1. Menganalisis Pola Penjualan
    Untuk memahami tren penjualan berdasarkan kategori produk, lokasi (kota), dan waktu (harian maupun bulanan).

  2. Mengukur Performa Penjualan
    Data ini digunakan untuk mengevaluasi performa penjualan secara menyeluruh dan per kategori, guna mengetahui produk mana yang paling laku atau kurang diminati.

  3. Mendukung Pengambilan Keputusan Bisnis
    Hasil analisis dari data ini menjadi dasar dalam pengambilan keputusan strategis, seperti pengadaan stok, promosi produk, dan penentuan target penjualan.

  4. Mengetahui Karakteristik Konsumen
    Dengan membersihkan dan menganalisis data pembeli, perusahaan dapat memahami perilaku konsumen, termasuk frekuensi transaksi dan preferensi pembelian.

  5. Mempersiapkan Visualisasi dan Laporan
    Data yang telah dikumpulkan dan dibersihkan akan disajikan dalam bentuk tabel dan visualisasi interaktif untuk memudahkan pemahaman oleh pemangku kepentingan.

📊 Interpretasi Dimensi Dataset Gabungan

Setelah proses penggabungan data dari tiga file CSV (Januari, Februari, dan Maret), diperoleh informasi sebagai berikut:

  • Jumlah Baris: 150
    Ini menunjukkan bahwa terdapat 150 transaksi yang terekam dalam dataset selama kuartal pertama (Januari–Maret). Setiap baris merepresentasikan satu transaksi atau entri data individu.

  • Jumlah Kolom: 9
    Terdapat 9 variabel atau kolom dalam dataset ini. Kolom-kolom ini kemungkinan berisi informasi seperti ID transaksi, tanggal, nama produk, jumlah, harga, kategori, wilayah, metode pembayaran, dan sebagainya (bergantung pada struktur asli dari file).


Bagian 2: Data Cleaning

Tugas:

  • Standarisasi tanggal
  • Ubah Harga dan Jumlah ke format numerik
  • Hitung ulang kolom Total
  • Ganti nilai tidak valid
  • Hapus baris dengan nama produk kosong

Tujuan

Tujuan dari proses data cleaning pada dataset penjualan ini adalah untuk memastikan data yang digunakan dalam analisis bersih, konsisten, dan siap untuk diproses lebih lanjut. Secara spesifik, pembersihan data bertujuan untuk:

  1. Menstandarisasi Format Tanggal
    Agar semua entri tanggal memiliki format yang seragam dan dapat digunakan dalam analisis waktu seperti tren harian atau bulanan.

  2. Mengonversi Harga dan Jumlah ke Format Numerik
    Untuk memastikan kolom-kolom numerik dapat dihitung dan dianalisis dengan benar (misalnya menghitung total penjualan).

  3. Menghitung Ulang Kolom Total
    Untuk memastikan nilai pada kolom Total sesuai dengan hasil perkalian antara Harga dan Jumlah, terutama setelah dilakukan pembersihan.

  4. Mengganti Nilai Tidak Valid
    Seperti mengganti nama pembeli yang anonim (anonymous) menjadi NA dan membersihkan karakter spesial pada nama pembeli.

  5. Menghapus Baris dengan Nama Produk Kosong atau Tidak Valid
    Untuk menjaga kualitas data, hanya baris dengan informasi produk yang valid akan dipertahankan dalam analisis.

📊 Interpretasi:

  1. Format Tanggal Diseragamkan:
    • Kolom Tanggal dikonversi menjadi format tanggal yang konsisten menggunakan pd.to_datetime(). Hal ini memastikan bahwa semua entri tanggal mengikuti pola yang sama (misalnya, YYYY-MM-DD), yang penting untuk analisis waktu, seperti pengelompokan penjualan per bulan atau tahun.
  2. Konversi Nilai Harga dan Jumlah ke Angka:
    • Kolom Harga diubah dari format string (yang mungkin termasuk karakter non-digit seperti “Rp” atau titik) menjadi format numerik menggunakan metode penggantian dengan regex. Dengan ini, analisis terkait harga (seperti perhitungan total penjualan) dapat dilakukan secara matematis.
    • Kolom Jumlah juga dikonversi dari representasi kata (misalnya, “satu”, “dua”) ke angka. Ini memungkinkan perhitungan yang lebih efektif ketika menghitung total penjualan berdasarkan jumlah unit yang dibeli.
  3. Perhitungan Ulang Kolom Total:
    • Kolom Total dihitung kembali sebagai hasil perkalian Harga dan Jumlah. Hal ini memberikan nilai total penjualan untuk setiap entri, yang penting untuk analisis keuangan dan strategis.
  4. Penggantian Nilai Tidak Valid:
    • Nilai-nilai yang tidak valid atau tidak relevan, seperti tanda “-” atau string “anonymous”, diubah menjadi nilai NA (Not Available). Ini membantu membersihkan data agar tidak mengganggu analisis. Nilai NA juga menandakan bahwa data tersebut hilang atau tidak dapat diandalkan.
  5. Penghapusan Baris Kosong untuk Kolom Produk:
    • Baris di mana kolom Produk kosong atau hanya berisi karakter “-” dihapus. Menghapus entri ini memastikan bahwa analisis hanya melibatkan produk yang valid dan tersedia, yang meningkatkan keakuratan hasil analisis.

Kesimpulan

Proses pembersihan data ini sangat penting untuk memastikan bahwa analisis yang dilakukan berdasarkan dataset ini adalah akurat dan relevan. Dengan menghilangkan nilai yang tidak valid, menyamakan format data, dan memastikan semua kolom berisi informasi yang dapat diolah, kita menyediakan dasar yang kuat untuk analisis lebih lanjut, seperti pemodelan penjualan, perencanaan inventaris, dan pengambilan keputusan strategis.


Bagian 3: Data Transformation

Tugas:

  • Buat kolom bulan
  • Hitung total penjualan per kategori produk
  • Hitung jumlah transaksi dari tiap kota
  • Buat ringkasan total penjualan bulanan

Tujuan

  1. Buat Kolom Bulan:
    • Mengkategorikan data penjualan berdasarkan bulan untuk memudahkan analisis tren penjualan bulanan.
  2. Hitung Total Penjualan per Kategori Produk:
    • Mengetahui kontribusi masing-masing kategori produk terhadap total penjualan, yang membantu dalam pengambilan keputusan strategis dan pengelolaan inventaris.
  3. Hitung Jumlah Transaksi dari Tiap Kota:
    • Menyediakan wawasan tentang distribusi penjualan dan performa di berbagai lokasi geografis, yang dapat membantu dalam strategi pemasaran dan pengembangan wilayah.
  4. Buat Ringkasan Total Penjualan Bulanan:
    • Menyajikan informasi penjualan secara ringkas setiap bulan untuk memudahkan evaluasi kinerja bulanan serta perencanaan ke depan.

🟩 1. Total Penjualan per Kategori

Kategori Total Penjualan (Rp)
Aksesoris 30.850.000
Elektronik 41.930.000
Fashion 44.015.000
🔍 Interpretasi:
  • Kategori Fashion memiliki total penjualan tertinggi sebesar Rp44,015,000, menunjukkan bahwa produk fashion sangat diminati oleh konsumen.
  • Diikuti oleh Elektronik, dengan total penjualan Rp41,930,000, yang menunjukkan minat yang kuat pada produk elektronik.
  • Kategori Aksesoris mencatat penjualan terendah, hanya Rp30,850,000, menyiratkan bahwa produk aksesoris mungkin kurang menarik bagi pelanggan atau perlu dipromosikan lebih baik.
  • Strategi pemasaran untuk Aksesoris perlu dievaluasi, sementara lebih banyak perhatian dapat diberikan kepada Fashion dan Elektronik.

🟦 2. Jumlah Transaksi per Kota

Kota Jumlah Transaksi
Bandung 33
Surabaya 30
- 30
Jakarta 29
🔍 Interpretasi:
  • Bandung merupakan kota dengan jumlah transaksi terbanyak, yaitu 33 transaksi, menunjukkan bahwa wilayah ini mungkin merupakan target pasar utama.
  • Terdapat 30 transaksi dengan kota tidak tercatat (-), yang menunjukkan adanya problem dalam pengumpulan data dan perlu diperbaiki untuk analisis yang lebih akurat.
  • Surabaya dan Jakarta memiliki jumlah transaksi yang mendekati satu sama lain, dengan Surabaya sedikit lebih tinggi. Ini menunjukkan potensi pasar di kedua kota tersebut.
  • Perlu perhatian lebih pada pengumpulan data lokasi, agar tidak ada transaksi yang tidak teridentifikasi yang dapat mempengaruhi analisis pasar.

🟨 3. Ringkasan Penjualan per Bulan

Bulan Total Penjualan (Rp)
2024-01 75.600.000
2024-02 40.800.000
2024-03 64.200.000
2024-04 94.900.000
2024-05 111.750.000
2024-06 95.800.000
🔍 Interpretasi:
  • Penjualan tertinggi terjadi pada bulan Mei dengan total Rp111,750,000, menunjukkan adanya lonjakan minat dari konsumen, mungkin didorong oleh promosi atau event khusus.
  • Bulan Januari juga menunjukkan penjualan yang kuat, namun penjualannya menurun di bulan Februari, yang mungkin disebabkan oleh lemahnya pembelanjaan setelah periode akhir tahun.
  • Setelah penurunan di Februari, terjadi pembangunan kembali yang positif mulai bulan Maret hingga Juni, menunjukkan bahwa pasar mungkin sedang pulih dan permintaan kembali meningkat.

🧠 Kesimpulan & Insight:

  1. Penjualan Fashion dan Elektronik merupakan pendorong utama, perlu diperkuat dengan promosi dan penguatan kategori produk.
  2. Bandung sebagai pasar terkuat menunjukkan potensi untuk strategi pemasaran lokal. Fokus pada merevitalisasi pasar di Surabaya dan Jakarta juga penting.
  3. Data lokasi tidak tercatat menunjukkan bahwa perlu adanya pembenahan dalam pengumpulan data untuk hasil yang lebih baik.
  4. Tren penjualan bulanan menunjukkan pemulihan yang positif setelah bulan Februari yang lemah; patut dicermati agar dapat memanfaatkan momentum penjualan yang kuat.

Visualisasi Data

Total Penjualan per Kategori

  • Interpretasi:
    • Grafik menunjukkan total penjualan untuk setiap kategori produk.
    • Kategori “NA” mencakup nilai penjualan tertinggi sebesar $168,762,010, yang mungkin menunjukkan masalah dalam data seperti kategori yang tidak terisi atau salah klasifikasi.
    • Di antara kategori yang terisi, “Fashion” muncul sebagai kategori dengan penjualan tertinggi ($225,259,768), diikuti oleh “Elektronik” dengan $212,756,770, dan “Aksesoris” dengan $33. Ini menunjukkan bahwa kategori Fashion dan Elektronik adalah pendorong utama penjualan.

Distribusi Penjualan per Bulan

  • Interpretasi:
    • Diagram donut menunjukkan proporsi penjualan dari setiap bulan.
    • Bulan Maret memiliki kontribusi tertinggi sebesar 38.7%, diikuti oleh Februari (35.5%) dan Januari (20.9%). April masih rendah dengan 4.9%.
    • Grafik ini menunjukkan bahwa penjualan meningkat secara signifikan di bulan Maret, yang mungkin terkait dengan promosi atau musiman.

Tren Penjualan Harian

  • Interpretasi:
    • Grafik garis menunjukkan fluktuasi total penjualan harian sepanjang bulan.
    • Terlihat adanya spike penjualan pada beberapa tanggal tertentu, yang bisa jadi akibat kampanye pemasaran atau penawaran khusus.
    • Kestabilan di sepanjang bulan menunjukkan trend yang tidak konsisten, dan ada tanggal dengan penjualan yang sangat tinggi dibandingkan dengan tanggal lainnya, yang bisa menunjukkan adanya data anomaly atau peristiwa tertentu.

Heatmap Penjualan Harian per Kota

  • Interpretasi:
    • Heatmap menunjukkan total penjualan harian yang dikelompokkan berdasarkan kota.
    • Terdapat beberapa nilai yang sangat tinggi untuk kota Bandung dan Jakarta dalam periode tertentu sementara Surabaya memiliki nilai penjualan yang lebih rendah.
    • Warna gelap menunjukkan total yang lebih tinggi, sedangkan wilayah dengan warna yang lebih terang menunjukkan penjualan lebih rendah.
    • Pengamatan ini berguna untuk memahami di mana titik kekuatan dan kesempatan terdapat dalam penjualan di berbagai lokasi.

Kesimpulan

  • Kategori Fashion dan Elektronik adalah pendorong utama penjualan, sementara ada masalah dalam data penjualan kategori, seperti “NA”.
  • Bulan Maret adalah yang paling produktif dalam konteks penjualan, dengan banyak aktivitas penjualan terjadi pada hari-hari tertentu.
  • Data dapat digunakan untuk lebih memahami pola pembelian dan membantu dalam perencanaan strategis untuk kampanye di masa depan, baik dari sisi produk yang ditawarkan maupun penempatan geografis.

