Tugas Ke 13 Pemrograman Sains Data

Profile

A. Combo

Ini menggabungkan data kategoris dan numerik untuk menunjukkan bagaimana variabel numerik berperilaku di berbagai kategori. Contohnya adalah diagram batang yang dikelompokkan, diagram kotak menurut kategori, diagram garis hubungan, diagram lolipop, diagram titik, dan peta panas.

1. Heatmap

Heatmap adalah representasi grafis data dimana nilai-nilai individual yang terdapat dalam matriks direpresentasikan sebagai warna. Heatmap banyak digunakan untuk memvisualisasikan data yang kompleks dengan mengodekan nilai-nilai data sebagai warna yang bervariasi, sehingga pola, korelasi, dan outlier lebih mudah dideteksi.

Karakteristik Utama Heatmap:

  • Nilai Kode Warna: Intensitas warna setiap sel sesuai dengan besarnya nilai yang diwakilinya, sering kali menggunakan gradien dari rendah ke tinggi.
  • Format Matriks: Biasanya ditampilkan sebagai kotak di mana baris kolom sesuai dengan variabel kategoris atau dimensi.
  • Pengenalan Pola: Membantu mengidentifikasi klaster, tren, dan anomali dalam kumpulan data besar dengan cepat.
  • Aplikasi Fleksibel: Umumnya digunakan dalam bidang seperti genomik, keuangan, pemasaran, dan analisis bisnis untuk memvisualisasikan korelasi, kinerja penjualan, atau tingkat aktivitas.
  • Varian Interaktif: Sering dipasangkan dengan interaktivitas (zoom, detail hover) di dasbor untuk eksplorasi yang lebih mendalam.
  • Kustomisasi: Palet warna, skala, dan metode penglompokan dapat disesuikan untuk kejelasan dan penekanan.
  • Berfokus pada Hubungan: Tidak seperti diagram batang sederhana, heatmap menunjukkan hubungan antara dua variabel kategoris berdasarkan nilai agregatnya.

Kode R (Heatmap)

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)
## Warning: package 'readr' was built under R version 4.4.3
# Baca data
df <- read_csv("Descriptive Visualizations.csv")
## New names:
## • `` -> `...1`
## Rows: 500 Columns: 25
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr   (8): Transaction_ID, Customer_ID, Product_Category, Product_ID, Region...
## dbl  (15): ...1, Quantity, Unit_Price, Discount, Delivery_Time, Total_Price,...
## lgl   (1): ID_HasPattern
## date  (1): Transaction_Date
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
# Agregasi data
agg_data <- df %>%
  group_by(Region, Product_Category) %>%
  summarise(TotalSales = sum(Total_Price, na.rm = TRUE))
## `summarise()` has grouped output by 'Region'. You can override using the
## `.groups` argument.
# Heatmap
ggplot(agg_data, aes(x = Region, y = Product_Category, fill = TotalSales)) +
  geom_tile(color = "white") +
  scale_fill_gradient(low = "lightblue", high = "darkblue") +
  labs(title = "Heatmap Total Sales per Region & Product Category",
       x = "Region", y = "Product Category") +
  theme_minimal()

B. Hubungan

Visualisasi data relasi mengacu pada metode grafis yang dirancang untuk mengeksplorasi dan menyajikan koneksi, asosiasi, atau interaksi antara dua atau lebih variabel atau entitas. Visualisasi ini membantu mengungkap pola, tren, korelasi, atau jaringan yang mungkin tidak terlihat jelas dari data mentah saja.

1. Diagram Pencar

Diagram sebar adalah alat visualisasi data mendasar yang digunakan untuk menampilkan hubungan antara dua variabel kontinu. Setiap titik pada diagram mewakili suatu pengamatan dengan posisi yang ditentukan oleh nilai kedua variabel.

Karakteristik Utama dari Scatter Plot:

  • Hubungan bivariat: Menunjukkan bagaimana satu variabel berubah terhadap variabel lainnya.
  • Mendeteksi korelasi: Membantu mengidentifikasi korelasi positif, negatif, atau tidak ada korelasi.
  • Deteksi outlier: Mengungkapkan titik data yang tidak biasa.
  • Mendukung estetika tambahan: Warna, ukuran, dan bentuk dapat mewakili lebih banyak variabel untuk wawasan multidimensi
  • Umum dalam analisis data eksploratori (EDA): Menyediakan ringkasan visual cepat tentang hubungan data.

Kode R (Diagram Pencar)

library(ggplot2)
data <- read.csv("Descriptive Visualizations.csv")

ggplot(data, aes(x = Quantity, y = Unit_Price)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  labs(title = "Scatter Plot: Quantity vs Unit Price",
       x = "Quantity",
       y = "Unit Price") +
  theme_minimal()

2. Bagan Gelembung

Bagan Gelembung merupakan perluasan dari diagram sebar yang memvisualisasikan tiga dimensi data. Diagram ini memplot titik-titik seperti diagram sebar tetapi menggunakan ukuran setiap gelembung untuk mewakili variabel ketiga, sehingga memungkinkan wawasan yang lebih kaya tentang hubungan.

Kode R (Bagan Gelembung)

library(ggplot2)
data <- read.csv("Descriptive Visualizations.csv")

ggplot(data, aes(x = Quantity, y = Unit_Price, size = Total_Price, color = Product_Category)) +
  geom_point(alpha = 0.6) +
  scale_size_continuous(range = c(2, 12)) +
  labs(title = "Bubble Chart: Quantity vs Unit Price (size = Total Price)",
       x = "Quantity",
       y = "Unit Price",
       size = "Total Price") +
  theme_minimal()

3.Matriks Korelasi

Matriks Korelasi adalah tabel yang menunjukkan koefisien korelasi antara banyak variabel. Setiap sel dalam matriks mewakili korelasi antara dua variabel, yang biasanya diukur dengan koefisien korelasi Pearson. Matriks ini membantu Anda memahami hubungan, pola, dan ketergantungan dalam data multivariat dengan cepat.

Karakteristik Utama:

  • Nilai berkisar dari-1 hingga +1:
  • +1 berarti korelasi positif sempurna,
  • -1 berarti korelasi negatif sempurna,
  • O berarti tidak ada korelasi linear.
  • Berguna untuk mendeteksi multikolinearitas dan hubungan fitur dalam analisis data.
  • Sering divisualisasikan dengan peta panas atau matriks berwarna, di mana warna menunjukkan kekuatan dan arah korelasi.
  • Penting dalam bidang seperti keuangan, ilmu kesehatan, dan pemilihan fitur pembelajaran mesin.

Kode R (Matriks Korelasi)

# Load libraries
library(ggplot2)
library(reshape2)
## Warning: package 'reshape2' was built under R version 4.4.3
# Baca data
df <- read.csv("Descriptive Visualizations.csv", stringsAsFactors = FALSE)

# Konversi ke numerik
df$Total_Price <- as.numeric(df$Total_Price)
df$Quantity <- as.numeric(df$Quantity)
df$Price_per_Unit <- as.numeric(df$Price_per_Unit)

# Pilih kolom numerik dan hitung korelasi
df_num <- na.omit(df[, c("Total_Price", "Quantity", "Price_per_Unit")])
cor_matrix <- cor(df_num, use = "complete.obs")

# Reshape untuk ggplot
cor_melted <- melt(cor_matrix)

# Plot korelasi
ggplot(cor_melted, aes(x = Var1, y = Var2, fill = value)) +
  geom_tile(color = "white") +
  geom_text(aes(label = round(value, 2)), size = 5) +
  scale_fill_gradient2(low = "blue", high = "red", mid = "white", 
                       midpoint = 0, limit = c(-1, 1), space = "Lab", 
                       name = "Correlation") +
  labs(title = "Correlation Matrix") +
  theme_minimal(base_size = 15)

C. Seri Waktu

Visualisasi Deret Waktu adalah representasi grafis dari titik data yang dikumpulkan atau direkam pada interval waktu yang berurutan. Visualisasi ini penting untuk mengidentifikasi tren, pola musiman, siklus, dan anomali dari waktu ke waktu.

Karakteristik Utama:

  • Pengurutan Temporal: Titik data diurutkan berdasarkan waktu (detik, menit, hari, bulan, tahun).
  • Deteksi Tren: Membantu mengidentifikasi peningkatan atau penurunan data jangka panjang.
  • Musiman: Mengungkapkan pola atau siklus berulang dalam periode tertentu.
  • Anomali: Mendeteksi outlier atau perubahan yang tidak biasa.
  • Plot Umum: Bagan garis, bagan area, dan grafik bertumpuk.
  • Deret Waktu Multivariat: Beberapa deret waktu terkait dapat diplot menggunakan aspek atau warna untuk dibandingkan.

1. Grafik Garis

Bagan Garis adalah salah satu vcara palingumum dan intuitif untuk memvisualisasikan titik-titik data yang dihubungkan dengan garis lurus, terutama efektif untuk menunjukkan dari waktu ke waktu.

Kode R (Grafik Garis)

library(ggplot2)
library(dplyr)
library(lubridate)
## Warning: package 'lubridate' was built under R version 4.4.3
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
library(readr)

# Membaca data
df <- read_csv("Descriptive Visualizations.csv")
## New names:
## • `` -> `...1`
## Rows: 500 Columns: 25
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr   (8): Transaction_ID, Customer_ID, Product_Category, Product_ID, Region...
## dbl  (15): ...1, Quantity, Unit_Price, Discount, Delivery_Time, Total_Price,...
## lgl   (1): ID_HasPattern
## date  (1): Transaction_Date
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
# Mengolah data
df <- df %>%
  mutate(Transaction_Date = as.Date(Transaction_Date),
         Month = floor_date(Transaction_Date, "month")) %>%
  group_by(Month) %>%
  summarise(Avg_Discount = mean(Discount, na.rm = TRUE))

# Membuat grafik garis
ggplot(df, aes(x = Month, y = Avg_Discount)) +
  geom_line(color = "darkred", size = 1) +
  labs(title = "Rata-Rata Diskon per Bulan",
       x = "Bulan",
       y = "Rata-Rata Diskon") +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

2. Bagan Area

Bagan Area adalah variasi bagan garis di mana area antara garus dan sumbu diisi dengan warna. Bagan ini menekankan besarnya nilai dari waktu ke wakaktu dan berguna untuk memvisualisasikan kuantitas atau proporsi kumulatif.

Kode R (Bagan Area)

library(ggplot2)
library(dplyr)
library(lubridate)
library(readr)

# Membaca data
df <- read_csv("Descriptive Visualizations.csv")
## New names:
## Rows: 500 Columns: 25
## ── Column specification
## ──────────────────────────────────────────────────────── Delimiter: "," chr
## (8): Transaction_ID, Customer_ID, Product_Category, Product_ID, Region... dbl
## (15): ...1, Quantity, Unit_Price, Discount, Delivery_Time, Total_Price,... lgl
## (1): ID_HasPattern date (1): Transaction_Date
## ℹ Use `spec()` to retrieve the full column specification for this data. ℹ
## Specify the column types or set `show_col_types = FALSE` to quiet this message.
## • `` -> `...1`
# Mengolah data
df <- df %>%
  mutate(Transaction_Date = as.Date(Transaction_Date),
         Month = floor_date(Transaction_Date, "month"),
         Sales = Quantity * Unit_Price) %>%
  group_by(Month, Product_Category) %>%
  summarise(Total_Sales = sum(Sales, na.rm = TRUE)) %>%
  ungroup()
## `summarise()` has grouped output by 'Month'. You can override using the
## `.groups` argument.
# Membuat bagan area
ggplot(df, aes(x = Month, y = Total_Sales, fill = Product_Category)) +
  geom_area(alpha = 0.8) +
  labs(title = "Bagan Area Penjualan per Kategori Produk",
       x = "Bulan",
       y = "Total Penjualan") +
  theme_minimal()

