Visualisasi Data Dasar

Assignment ~ Week 4

Logo

1 . Pendahuluan

Visualisasi data transportasi publik adalah teknik penyajian informasi dalam bentuk diagram untuk mempermudah pemahaman, analisis, dan pengambilan keputusan.

Tujuannya meliputi :

  • Menyederhanakan data agar mudah dipahami
  • Mengungkap tren penggunaan dan keterlambatan operasional
  • Mendukung perencanaan dan kebijakan transportasi yang lebih efisien

Konteks kasus :

  • Peneliti atau mahasiswa yang ingin menganalisis pola mobilitas masyarakat.
  • Operator transportasi publik

Dengan visualisasi, data transportasi menjadi alat strategis untuk meningkatkan layanan dan respons terhadap kebutuhan publik.

2 . Persiapan Data

## Data Transportasi Publik
library(DT)

data_transportasi <- data.frame(
  No = 1:10,
  Nama_Bus = c("Bus A", "Bus B", "Bus C", "Bus D",
               "Bus E", "Bus F", "Bus G", "Bus H",
               "Bus I", "Bus J"),
  Jumlah_Penumpang = c(87, 120, 95, 110, 78, 
                       105, 60, 140, 102, 85),
  Waktu_Keterlambatan = c(4.3, 11.3, 6.2, 10.8, 2.5, 
                         9.5, 1.0, 15.6, 8.5, 3.2),
  
  Nama_Rute = c("Rute Merdeka", "Rute Harmoni", "Rute Grogol",
                 "Rute Merdeka", "Rute Harmoni", "Rute Grogol",
                 "Rute Merdeka", "Rute Harmoni", "Rute Grogol",
                 "Rute Merdeka"),
  
  Waktu_Keberangkatan = c("Pagi", "Pagi", "Siang", "Siang", "Sore",
                          "Sore", "Malam", "Malam", "Pagi", "Siang")
)

# Menampilkan data
print(data_transportasi)
##    No Nama_Bus Jumlah_Penumpang Waktu_Keterlambatan    Nama_Rute
## 1   1    Bus A               87                 4.3 Rute Merdeka
## 2   2    Bus B              120                11.3 Rute Harmoni
## 3   3    Bus C               95                 6.2  Rute Grogol
## 4   4    Bus D              110                10.8 Rute Merdeka
## 5   5    Bus E               78                 2.5 Rute Harmoni
## 6   6    Bus F              105                 9.5  Rute Grogol
## 7   7    Bus G               60                 1.0 Rute Merdeka
## 8   8    Bus H              140                15.6 Rute Harmoni
## 9   9    Bus I              102                 8.5  Rute Grogol
## 10 10    Bus J               85                 3.2 Rute Merdeka
##    Waktu_Keberangkatan
## 1                 Pagi
## 2                 Pagi
## 3                Siang
## 4                Siang
## 5                 Sore
## 6                 Sore
## 7                Malam
## 8                Malam
## 9                 Pagi
## 10               Siang
# Display the data frame as a neat table
datatable(data_transportasi, 
          caption = "Table of Data  Public Transportations",
          rownames = FALSE)

3 . Visualisasi

3.1 Bar Chart

Definisi :

Bar chart atau diagram batang adalah visualisasi data yang menggunakan batang (vertikal atau horizontal) untuk menunjukkan nilai dari suatu kategori. Setiap batang mewakili satu kategori, dan panjang batang sesuai dengan nilai atau frekuensi data.

Aturan Penggunaan Bar Chart :

  • Gunakan untuk data kategorikal, bukan data numerik kontinu.
  • Setiap batang mewakili satu kategori, panjangnya menunjukkan nilai (frekuensi atau jumlah).
  • Batang tidak boleh menyentuh satu sama lain (beda dengan histogram).
  • Kategori sebaiknya berjumlah terbatas agar grafik tetap mudah dibaca.
  • Gunakan label yang jelas pada sumbu X dan Y.

Kelebihan Bar Chart :

  • Mudah dipahami.
  • Memudahkan perbandingan antar kategori.
  • Cocok untuk data kategorikal.
  • Fleksibel.
  • Mudah dikustomisasi.

Kekurangan Bar Chart :

  • Tidak cocok untuk data kontinu.
  • Kurang efektif untuk banyak kategori.
  • Sulit menunjukkan tren waktu.
  • Overplotting.
  • Sensitif terhadap skala visual.
library(ggplot2)

# Membuat bar chart
ggplot(data_transportasi, aes(x = Nama_Bus, y = Jumlah_Penumpang, fill = Waktu_Keterlambatan)) +
  geom_bar(stat = "identity", width = 0.6, color = "black") +
  labs(
    title = "Jumlah Penumpang dan Waktu Keterlambatan Bus",
    x = "Nama Bus",
    y = "Jumlah Penumpang",
    fill = "Keterlambatan (menit)"
  ) +
  theme_minimal()

Penjelasan :

Berdasarkan diagram diatas, dapat disimpulkan bahwa semakin banyak jumlah penumpang yang diangkut oleh bus, maka waktu keterlambatannya cenderung semakin lama seperti Bus H yang mengalami keterlambatan waktu selama 15 menit dengan jumlah penumpang 140 orang, sedangkan bus dengan jumlah penumpang yang lebih sedikit cenderung lebih tepat waktu seperti Bus G yang mengalami keterlambatan waktu hanya 1 menit dengan jumlah penumpang 60 orang. Hal ini menunjukkan adanya kemungkinan hubungan antara banyaknya penumpang dengan keterlambatan kedatangan bus.

3.2 Histogram

Definisi :

Histogram adalah jenis grafik yang digunakan untuk menampilkan distribusi frekuensi dari data numerik (angka). Grafik ini menunjukkan seberapa sering nilai-nilai dalam data muncul dalam rentang (interval) tertentu, yang disebut bin.

Aturan Penggunaan :

  • Data yang digunakan harus bersifat numerik (angka).
  • Data dibagi ke dalam kelompok nilai (interval/bin).
  • Tinggi batang menunjukkan jumlah data dalam setiap kelompok.
  • Batang harus berdempetan tanpa jarak antar batang.
  • Jumlah kelompok harus ditentukan secara tepat (tidak terlalu sedikit atau terlalu banyak).

Kelebihan Histogram :

  • Cepat mengidentifikasi pola distribusi (normal,miring) dan nilai ekstrem (outlier)
  • Mudah di pahami dan alat yang efektif untuk memantau kualitas atau konsistensi proses.
  • Memungkinkan perbandingan visual antar dataset yang berbeda.

Kekurangan Histogram :

  • Interpretasi sangat bergantung pada lebar bins yang dipilih.
  • Menyebabkan hilangnya detail data individu karena dikelompokkan dalam interval.
  • Tidak cocok untuk data kategorikal (gunakan bar chart).
library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tidyr)

# Ubah data jadi format long untuk dua variabel
data_long <- data_transportasi %>%
  select(Jumlah_Penumpang, Waktu_Keterlambatan) %>%
  pivot_longer(cols = everything(),
               names_to = "Variabel",
               values_to = "Nilai")

# Plot histogram gabungan dengan warna berdasarkan variabel
ggplot(data_long, aes(x = Nilai, fill = Variabel)) +
  geom_histogram(color = "black", position = "identity", bins = 20) +
  labs(title = "Histogram Jumlah Penumpang Bus dan Waktu Keterlambatan Bus",
       x = 'Jumlah penumpang',
       y = "Waktu keterlambatan",
       fill = "Variabel") +
  theme_minimal()

Penjelasan :

Berdasarkan histogram di atas, dapat disimpulkan bahwa mayoritas bus memiliki waktu keterlambatan yang relatif singkat (0–15 menit), sedangkan jumlah penumpang bus cukup bervariasi antara 50 hingga 150 orang per bus. Hal ini menunjukkan bahwa keterlambatan bus tidak terlalu besar meskipun terdapat perbedaan jumlah penumpang antarbus.

3.3 Boxplot

Definsi :

Boxplot, atau sering juga disebut diagram kotak garis (box and whisker plot), adalah salah satu metode grafis dalam statistika deskriptif yang digunakan untuk menggambarkan distribusi sekumpulan data numerik berdasarkan ringkasan lima angka utamanya. Grafik ini sangat berguna untuk memberikan gambaran visual yang efektif dan cepat.

Aturan Penggunaan :

  • Data yang digunakan harus numerik (berupa angka).
  • Dapat digunakan untuk membandingkan data antar kelompok.
  • Menampilkan lima ukuran statistik utama: minimum, kuartil 1 (Q1), median, kuartil 3 (Q3), dan maksimum.
  • Outlier (pencilan) ditampilkan sebagai titik di luar rentang normal data.
  • Sumbu X berisi kategori, sumbu Y berisi nilai numerik.

Kelebihan Boxplot :

  • Menyajikan ringkasan data secara cepat dan sederhana.
  • Dapat mendeteksi pencilan (outlier) dengan jelas.
  • Cocok untuk membandingkan penyebaran data antar kelompok.
  • Tidak memerlukan asumsi distribusi data.
  • Mudah dibaca dan efisien dalam menampilkan data besar.

Kekurangan Boxplot :

  • Tidak menunjukkan bentuk distribusi data secara rinci.
  • Kurang informatif jika jumlah data sedikit.
  • Tidak menampilkan jumlah data secara eksplisit.
  • Kurang intuitif bagi orang yang belum memahami statistik.
  • Outlier yang banyak bisa saling menumpuk dan sulit dibedakan.
library(ggplot2)

# Buat kategori jumlah penumpang agar bisa dibandingkan dalam boxplot
data_transportasi$Kategori_Penumpang <- cut(
  data_transportasi$Jumlah_Penumpang,
  breaks = c(0, 80, 110, 150),
  labels = c("Sedikit", "Sedang", "Banyak")
)

# Membuat boxplot gabungan jumlah penumpang & waktu keterlambatan
ggplot(data_transportasi,
       aes(x = Kategori_Penumpang,
           y = Waktu_Keterlambatan,
           fill = Kategori_Penumpang)) +
  geom_boxplot(width = 0.6, color = "black") +
  geom_jitter(aes(size = Jumlah_Penumpang), # Titik ukuran sesuai jumlah penumpang
              color = "chocolate4",
              alpha = 0.6,
              width = 0.15) +
  labs(
    title = "Boxplot Jumlah Penumpang Bus dan Waktu Keterlambatan Bus",
    x = "Jumlah Penumpang Bus",
    y = "Waktu Keterlambatan Bus (menit)",
    size = "Jumlah Penumpang"
  ) +
  theme_minimal()

Penjelasan :

Berdasarkan boxplot di atas, dapat disimpulkan bahwa semakin banyak jumlah penumpang yang diangkut bus, maka waktu keterlambatan cenderung semakin lama. Bus dengan penumpang sedikit cenderung lebih tepat waktu, sedangkan bus dengan penumpang sedang atau banyak memiliki variasi keterlambatan yang lebih besar. Terdapat juga beberapa bus dengan penumpang banyak yang mengalami keterlambatan ekstrem (outlier), menunjukkan adanya potensi kendala operasional saat jumlah penumpang terlalu tinggi.

3.4 Pie Chart

Definisi :

Pie chart adalah grafik berbentuk lingkaran yang dibagi menjadi beberapa sektor untuk menunjukkan proporsi atau persentase dari keseluruhan data. Setiap sektor mewakili bagian dari total, sehingga memudahkan pembaca memahami komposisi data secara visual.

Aturan Penggunaan :

  • Data yang dipakai harus data diskrit dengan nilai yang dapat dijumlahkan menjadi total 100%.
  • Gunakan data dengan kategori terbatas (3-7 kategori).
  • Jangan dipakai jika kategori nilainya hampir sama.
  • Tidak cocok untuk perbandingan detail antar kategori.
  • Label harus jelas supaya mudah dibaca.

Kelebihan Pie Chart :

  • Mudah dipahami untuk menunjukkan proporsi bagian dari keseluruhan.
  • Visualnya menarik dan sederhana.
  • Cocok untuk data dengan sedikit kategori.
  • Memudahkan melihat kontribusi masing-masing kategori secara cepat.

Kekurangan Pie Chart :

  • Sulit membandingkan ukuran irisan jika banyak kategori.
  • Tidak efektif untuk data dengan kategori yang nilainya mirip.
  • Kurang akurat untuk menunjukkan perbandingan detail antar kategori.
  • Bisa membingungkan jika jumlah kategori terlalu banyak.
  • Sulit menampilkan perubahan data dari waktu ke waktu.
library(ggplot2)
library(dplyr)

# Ringkas data per bus
data_summary <- data_transportasi %>%
  group_by(Nama_Bus) %>%
  summarise(
    Total_Penumpang = sum(Jumlah_Penumpang),
    Rata_Keterlambatan = mean(Waktu_Keterlambatan)
  )

# Buat label
data_summary$label <- paste0(
  data_summary$Nama_Bus, "\n",
  "Penumpang: ", data_summary$Total_Penumpang, "\n",
  "Delay: ", data_summary$Rata_Keterlambatan, " mnt"
)

# Pie chart (Donut)
ggplot(data_summary, aes(x = 2, y = Total_Penumpang, fill = Nama_Bus)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar(theta = "y", start = 0) +
  xlim(0.5, 2.5) +         # inilah yang membuat "lubang" di tengah
  geom_text(aes(label = label),
            position = position_stack(vjust = 0.5),
            color = "black", size = 2.5, fontface = "bold") +
  labs(
    title = "Pie Chart (Donut) : Jumlah Penumpang Bus dan Waktu Keterlambatan Bus",
    fill = "Nama Bus"
  ) +
  theme_void() +
  theme(
    plot.title = element_text(size = 12)
  )

Penjelasan :

Berdasarkan pie chart di atas, dapat disimpulkan bahwa Bus H menyumbang proporsi penumpang terbesar sekaligus mengalami keterlambatan paling lama, sedangkan Bus G memiliki penumpang paling sedikit dan waktu keterlambatan paling singkat. Secara umum, semakin banyak jumlah penumpang yang diangkut oleh bus, waktu keterlambatannya cenderung lebih lama.

3.5 Scatter Plot

Definisi :

Scatter plot adalah grafik yang menampilkan hubungan antara dua variabel numerik dengan menempatkan titik-titik pada koordinat sumbu X dan Y sesuai nilai masing-masing variabel.

Aturan Penggunaan Scatter Plot :

  • Digunakan untuk menunjukkan hubungan atau korelasi antara dua variabel numerik.
  • Cocok untuk data yang berpasangan, misalnya pengukuran X dan Y pada objek yang sama.
  • Tidak digunakan untuk variabel kategori (non-numerik).
  • Berguna untuk mengidentifikasi pola, tren, kelompok, atau outlier dalam data.
  • Jika datanya terlalu padat, bisa menggunakan teknik seperti transparansi titik atau jitter agar visualisasi lebih jelas.
  • Bisa ditambahkan garis tren (regresi) untuk membantu interpretasi hubungan.

Kelebihan Scatter Plot :

  • Menampilkan hubungan dan pola antara dua variabel numerik dengan jelas.
  • Mudah mendeteksi korelasi positif, negatif, atau tidak ada korelasi.
  • Memungkinkan identifikasi outlier dan kelompok data (clustering).
  • Visualisasi sederhana dan intuitif.
  • Bisa digunakan untuk data besar dengan tambahan fitur seperti transparansi atau jitter.

Kekurangan Scatter Plot :

  • Kurang efektif jika data sangat padat dan titik-titik saling tumpang tindih.
  • Tidak cocok untuk variabel kategorikal atau lebih dari dua variabel tanpa modifikasi khusus.
  • Interpretasi hubungan hanya berdasarkan visual, tidak langsung memberikan nilai statistik.
  • Bisa membingungkan jika sumbu tidak diberi label atau skala tidak sesuai.
library(ggplot2)
library(ggrepel)

ggplot(data_transportasi, aes(x = Jumlah_Penumpang, 
                              y = Waktu_Keterlambatan,
                              color = Nama_Rute)) +
  geom_point(size = 4, alpha = 0.8) +
  geom_text_repel(aes(label = Nama_Bus), size = 3) +
  geom_smooth(method = "lm", se = FALSE, color = "black", linetype = "dashed") +
  labs(
    title = "Scatter Plot Jumlah Penumpang Bus vs Waktu Keterlambatan Bus",
    x = "Jumlah Penumpang Bus",
    y = "Waktu Keterlambatan (menit)"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Penjelasan :

Berdasarkan scatterplot diatas, dapat disimpulkan bahwa terdapat hubungan antara waktu keterlambatan bus dengan jumlah penumpang bus. Bus dengan penumpang sedikit memiliki waktu keterlambatan rendah, sedangkan bus dengan penumpang banyak memiliki waktu keterlambatan tinggi. Pola ini konsisten pada seluruh rute (Grogol, Harmoni, dan Merdeka), yang menandakan bahwa kepadatan penumpang menjadi salah satu faktor utama penyebab keterlambatan bus.

3.6 Line Plot

Definisi :

Line plot (diagram garis) adalah jenis grafik yang menampilkan data dalam bentuk titik-titik yang dihubungkan oleh garis. Garis tersebut menunjukkan perubahan atau hubungan antara dua variabel — biasanya satu variabel numerik terhadap waktu atau terhadap variabel numerik lain.

Aturan Penggunaan :

  • Gunakan data yang berurutan atau kontinu.
  • Sumbu X digunakan untuk variabel independen (penyebab)
  • Sumbu Y digunakan untuk variabel dependen (akibat)
  • Hubungkan titik-titik data sesuai urutan yang benar.
  • Pastikan jarak antar titik di sumbu X proporsional.

Kelebihan Line Plot :

  • Menunjukkan tren atau perubahan dari waktu ke waktu dengan jelas.
  • Mudah dibandingkan antar kelompok data, terutama bila memakai garis berbeda.
  • Memberikan gambaran hubungan antar variabel (misalnya, jumlah penumpang dan waktu keterlambatan).
  • Efisien untuk data kontinu, karena menghubungkan titik-titik secara berurutan.
  • Visualisasi sederhana dan mudah dipahami, bahkan oleh pembaca non-teknis.

Kekurangan Line Plot :

  • Tidak cocok untuk data kategori, karena garis menyiratkan urutan yang tidak ada.
  • Sulit dibaca jika terlalu banyak garis atau data terlalu rapat.
  • Kurang efektif untuk menunjukkan distribusi data, seperti variasi atau sebaran nilai.
  • Sensitif terhadap skala sumbu, perubahan kecil pada skala bisa mengubah persepsi tren.
  • Tidak menunjukkan frekuensi atau proporsi.
library(ggplot2)

data_transportasi$Nama_Bus <- factor(data_transportasi$Nama_Bus, levels = c("Bus A", "Bus B", "Bus C", "Bus D", "Bus E", "Bus F", "Bus G", "Bus H", "Bus I", "Bus J"))

# 3. Membuat Line Plot
plot_line <- ggplot(data_transportasi, aes(x = Nama_Bus, y = Jumlah_Penumpang, group = 1)) + 
  geom_line(color = "darkblue", size = 1) + 
  geom_point(color = "red", size = 3) +     
  labs(
    title = "Tren Jumlah Penumpang per Unit Bus",
    x = "Nama Bus",
    y = "Jumlah Penumpang"
  ) +
  theme_minimal() +
  geom_text(aes(label = Jumlah_Penumpang), vjust = -1, color = "black", size = 3.5)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
# Menampilkan plot
print(plot_line)

Penjelasan :

Dari diagram diatas, terlihat bahwa rute Harmoni memiliki kemiringann paling curam yang berarti penambahan jumlah penumpang lebih cepat meningkatkan waktu keterlambatan dibandingkan rute lain. Secara keseluruhan, grafik ini menggambarkan bahwa semakin padat penumpang suatu bus, semakin besar kemungkinan bus mengalami keterlambatan waktu tiba, dengan perbedaan tingkat keterlambatan yang dipengaruhi oleh masing-masing rute.

3.7 Density Plot

Definisi :

Density plot (plot kepadatan) adalah salah satu jenis grafik dalam statistik dan visualisasi data yang digunakan untuk menunjukkan distribusi suatu variabel kontinu. Grafik ini merupakan versi halus dari histogram, karena menggunakan fungsi estimasi kepadatan kernel (kernel density estimation / KDE) untuk memperkirakan seberapa padat data berada di setiap rentang nilai.

Aturan Penggunaan :

  • Menggunakan data kontinu.
  • Cocok untuk membandingkan beberapa distribusi antarkelompok.
  • Gunakan alpha < 1 jika ada beberapa kategori.
  • Nilai sumbu Y menunjukkan kepadatan.

Kelebihan Density Plot :

  • Menampilkan distribusi data dengan halus.
  • Mudah membandingkan beberapa kelompok.
  • Tidak tergantung pada lebar bin seperti histogram.
  • Memberikan gambaran probabilitas relatif.

Kekurangan Density Plot :

  • Tidak menunjukkan jumlah data sebenarnya.
  • Kurang akurat untuk data kecil (n < 20).
  • Sulit dipahami pemula.
  • Tidak cocok untuk data kategorik atau diskrit.
library(ggplot2)

plot_keterlambatan <- ggplot(data_transportasi, aes(x = Waktu_Keterlambatan)) +
  geom_density(fill = "blue", color = "blue", alpha = 0.7) +
  labs(
    title = "Density Plot Waktu Keterlambatan Bus (Keseluruhan)",
    x = "Waktu Keterlambatan (menit)",
    y = "Kepadatan"
  ) +
  theme_minimal()

# Menampilkan 
print(plot_keterlambatan)

# Jumlah Penumpang (Keseluruhan)
plot_penumpang <- ggplot(data_transportasi, aes(x = Jumlah_Penumpang)) +
  geom_density(fill = "orange", color = "orange", alpha = 0.7) +
  labs(
    title = "Density Plot Jumlah Penumpang Bus",
    x = "Jumlah Penumpang",
    y = "Kepadatan"
  ) +
  theme_minimal()

# Menampilkan
print(plot_penumpang)

#Waktu Keterlambatan berdasarkan Nama Rute (Bergrup)
plot_keterlambatan_rute <- ggplot(data_transportasi, aes(x = Waktu_Keterlambatan, fill = Nama_Rute)) +
  geom_density(alpha = 0.5, position = "identity") + # position="identity" memungkinkan kurva tumpang tindih
  labs(
    title = "Density Plot Waktu Keterlambatan berdasarkan Rute",
    x = "Waktu Keterlambatan (menit)",
    y = "Kepadatan"
  ) +
  scale_fill_manual(values = c("Rute Merdeka" = "green", "Rute Harmoni" = "pink", "Rute Grogol" = "lightblue")) +
  theme_minimal()

# Menampilkan
print(plot_keterlambatan_rute)

Penjelasan :

Berdasarkan density plot diatas, menunjukkan bahwa rute Harmoni memiliki tingkat keterlambatan tertinggi karena jumlah penumpangnya paling banyak. Rute Merdeka juga menunjukkan performa paling baik karena waktu keterlambatannya tetap rendah meski jumlah penumpang bervariasi.Density plot ini membantu menunjukkan sebaran dan konsentrasi data antar rute, sehingga kita bisa dengan mudah melihat rute mana yang paling padat dan mana yang paling efisien.

3.8 Ridgeline Plot

Definisi :

Ridgeline Plot adalah visualisasi data di mana beberapa plot kerapatan (density plots) ditumpuk secara vertikal dan sedikit tumpang tindih. Setiap “lapisan” (ridge) mewakili distribusi data dari satu kategori atau kelompok, memungkinkan perbandingan bentuk, posisi puncak (modus), dan penyebaran (varians) antar kelompok.

Aturan penggunaan :

  • Membandingkan Distribusi.
  • Data Deret Waktu (Time Series) Kuantitatif menunjukkan perubahan dalam distribusi variabel dari waktu ke waktu.
  • Memvisualisasikan Data Numerik Kontinu.

Kelebihan :

  • Efisiensi Ruang: Dapat menampilkan banyak distribusi secara ringkas dalam ruang yang terbatas.
  • Perbandingan yang Jelas: Tumpang tindihnya plot kerapatan menyoroti perbedaan utama dalam bentuk dan lokasi puncak distribusi antar kelompok.
  • Menarik Secara Visual: Estetika yang unik membuat plot ini menarik dan mudah dipahami.
  • Menunjukkan Tren: Efektif untuk menunjukkan perubahan tren distribusi melintasi kategori yang berurutan (misalnya, waktu).

Kekurangan :

  • Sulit Dibaca Jika Terlalu Banyak Kategori.
  • Data Kuantil Tertentu Sulit Dilihat: Nilai kuantil spesifik (median, kuartil) atau nilai data individual (seperti yang terlihat pada Box Plot) tidak langsung terlihat.
  • Membutuhkan Interpretasi yang Hati-Hati: Tumpang tindih dapat menyebabkan beberapa bagian kurva tersembunyi (occlusion), yang mungkin menyembunyikan detail distribusi di balik kurva di depannya.
  • Kurang Cocok untuk Data Sedikit: Kurva kerapatan (density) mungkin tidak akurat atau informatif jika data untuk setiap kategori terlalu sedikit.
library(ggplot2)
library(ggridges)

data_transportasi$Nama_Rute <- factor(
  data_transportasi$Nama_Rute, 
  levels = c("Rute Merdeka", "Rute Harmoni", "Rute Grogol")
)

# 2. Membuat Ridgeline Plot
plot_ridgeline <- ggplot(
  data_transportasi, 
  aes(
    x = Waktu_Keterlambatan, 
    y = Nama_Rute, 
    fill = Nama_Rute 
  )
) +
  geom_density_ridges(
    alpha = 0.8, 
    scale = 1.5, 
    rel_min_height = 0.01 
  ) +
  labs(
    title = "Distribusi Waktu Keterlambatan Bus Berdasarkan Rute",
    x = "Waktu Keterlambatan (menit)",
    y = "Nama Rute"
  ) +
  theme_ridges() +
  theme(
    legend.position = "none", 
    plot.title = element_text(hjust = 0.5)
  )

# Menampilkan plot
print(plot_ridgeline)
## Picking joint bandwidth of 2.03

Penjelasan :

Ridgeline plot yang dihasilkan memvisualisasikan perbedaan dalam distribusi Waktu Keterlambatan di antara ketiga Rute Bus yang berbeda yaitu Rute Merdeka, Rute Harmoni, dan Rute Grogol. Dari bentuk puncak (kepadatan) dan posisinya pada sumbu X (Waktu Keterlambatan), kita dapat membandingkan tren keterlambatan antar rute. Puncak yang berada paling jauh ke kanan (nilai X besar) menunjukkan rute tersebut (Rute Harmoni) paling sering mengalami keterlambatan yang lebih lama. Puncak yang berada paling dekat dengan nol (nilai X kecil) mengindikasikan rute tersebut (Rute Grogol) cenderung memiliki keterlambatan yang lebih singkat atau paling tepat waktu.Secara keseluruhan, plot ini menyoroti bahwa rata-rata dan variasi keterlambatan sangat berbeda antar rute, di mana Rute Harmoni tampak paling rentan terhadap penundaan yang signifikan.

4 . Kesimpulan

Dapat dilihat dari hasil analisis dan visualisasi data bahwa jika sebuah transportasi publik (bus) membawa penumpang yang cukup banyak akan membuat bus tersebut mengalami kendala dalam waktu keterlambatan yang cukup tinggi, hal ini di karenakan bus harus berhenti di setiap rute, sedangkan jika penumpang lebih sedikit kemungkinan waktu keterlambatan bus akan lebih kecil. Kondisi operasional transportasi publik (bus) berperan penting terhadap tingkat efisiensi dan pemanfaatan layanan. Dan dari visualisasi ini membantu kita dalam melihat hubungan antara jumlah penumpang dan waktu keterlambatan, serta memberikan dasar informasi bagi pengambilan keputusan.

---
title: "Visualisasi Data Dasar" # Main title of the document
subtitle: "Assignment ~ Week 4" # Subtitle or topic for week 2
author: 
- "Adinda Adelia F"
- "Angelica Florentina" 
- "Boma Satrio" 
- "Chricyesia W.F.Uvas" 
- "Syafif Azmi Lontoh"          # Replace with your full name
date:  "`r format(Sys.Date(), '%B %d, %Y')`" # Auto displays the current date
output:                         # Output section defines the format and layout 
  rmdformats::readthedown:      # https://github.com/juba/rmdformats
    self_contained: true        # Embeds all resources (CSS, JS, images) 
    thumbnails: true            # Displays image thumbnails in the doc
    lightbox: true              # Enables click to enlarge images
    gallery: true               # Groups images into an interactive gallery
    number_sections: true       # Automatically numbers all sections
    lib_dir: libs               # Directory where JavaScript/CSS libraries
    df_print: "paged"           # Displays data frames as interactive paged 
    code_folding: "show"        # Allows folding/unfolding R code blocks 
    code_download: yes          # Adds a button to download all R code
---

<img id="Foto" src="https://raw.githubusercontent.com/bomass1116/Kelompok-2/main/Kelompok_2%20Statistika.jpg" alt="Logo" style="width:200px; display: block; margin: auto;">

# . Pendahuluan

Visualisasi data transportasi publik adalah teknik penyajian informasi dalam bentuk diagram untuk mempermudah pemahaman, analisis, dan pengambilan 
keputusan. 

Tujuannya meliputi :

- Menyederhanakan data agar mudah dipahami
- Mengungkap tren penggunaan dan keterlambatan operasional
- Mendukung perencanaan dan kebijakan transportasi yang lebih efisien

Konteks kasus :

- Peneliti atau mahasiswa yang ingin menganalisis pola mobilitas masyarakat.
- Operator transportasi publik

Dengan visualisasi, data transportasi menjadi alat strategis untuk 
meningkatkan layanan dan respons terhadap kebutuhan publik.

# . Persiapan Data

```{r}

## Data Transportasi Publik
library(DT)

data_transportasi <- data.frame(
  No = 1:10,
  Nama_Bus = c("Bus A", "Bus B", "Bus C", "Bus D",
               "Bus E", "Bus F", "Bus G", "Bus H",
               "Bus I", "Bus J"),
  Jumlah_Penumpang = c(87, 120, 95, 110, 78, 
                       105, 60, 140, 102, 85),
  Waktu_Keterlambatan = c(4.3, 11.3, 6.2, 10.8, 2.5, 
                         9.5, 1.0, 15.6, 8.5, 3.2),
  
  Nama_Rute = c("Rute Merdeka", "Rute Harmoni", "Rute Grogol",
                 "Rute Merdeka", "Rute Harmoni", "Rute Grogol",
                 "Rute Merdeka", "Rute Harmoni", "Rute Grogol",
                 "Rute Merdeka"),
  
  Waktu_Keberangkatan = c("Pagi", "Pagi", "Siang", "Siang", "Sore",
                          "Sore", "Malam", "Malam", "Pagi", "Siang")
)

# Menampilkan data
print(data_transportasi)

# Display the data frame as a neat table
datatable(data_transportasi, 
          caption = "Table of Data  Public Transportations",
          rownames = FALSE)
```

# . Visualisasi
## Bar Chart

Definisi :

Bar chart atau diagram batang adalah visualisasi data yang menggunakan batang (vertikal atau horizontal) untuk menunjukkan nilai dari suatu kategori. Setiap batang mewakili satu kategori, dan panjang batang sesuai dengan nilai atau frekuensi data. 

Aturan Penggunaan Bar Chart :

- Gunakan untuk data kategorikal, bukan data numerik kontinu.
- Setiap batang mewakili satu kategori, panjangnya menunjukkan nilai (frekuensi atau jumlah). 
- Batang tidak boleh menyentuh satu sama lain (beda dengan histogram). 
- Kategori sebaiknya berjumlah terbatas agar grafik tetap mudah dibaca. 
- Gunakan label yang jelas pada sumbu X dan Y.

Kelebihan Bar Chart :

- Mudah dipahami.
- Memudahkan perbandingan antar kategori.
- Cocok untuk data kategorikal.
- Fleksibel.
- Mudah dikustomisasi.

Kekurangan Bar Chart :

- Tidak cocok untuk data kontinu.
- Kurang efektif untuk banyak kategori.
- Sulit menunjukkan tren waktu.
- Overplotting.
- Sensitif terhadap skala visual.

```{r}
library(ggplot2)

# Membuat bar chart
ggplot(data_transportasi, aes(x = Nama_Bus, y = Jumlah_Penumpang, fill = Waktu_Keterlambatan)) +
  geom_bar(stat = "identity", width = 0.6, color = "black") +
  labs(
    title = "Jumlah Penumpang dan Waktu Keterlambatan Bus",
    x = "Nama Bus",
    y = "Jumlah Penumpang",
    fill = "Keterlambatan (menit)"
  ) +
  theme_minimal()

```

Penjelasan :

Berdasarkan diagram diatas, dapat disimpulkan bahwa semakin banyak jumlah penumpang yang diangkut oleh bus, maka waktu keterlambatannya cenderung semakin lama seperti Bus H yang mengalami keterlambatan waktu selama 15 menit dengan jumlah penumpang 140 orang, sedangkan bus dengan jumlah penumpang yang lebih sedikit cenderung lebih tepat waktu seperti Bus G yang mengalami keterlambatan waktu hanya 1 menit dengan jumlah penumpang 60 orang. Hal ini menunjukkan adanya kemungkinan hubungan antara banyaknya penumpang dengan keterlambatan kedatangan bus.


## Histogram

Definisi :

Histogram adalah jenis grafik yang digunakan untuk menampilkan distribusi frekuensi dari data numerik (angka). Grafik ini menunjukkan seberapa sering nilai-nilai dalam data muncul dalam rentang (interval) tertentu, yang disebut bin.

Aturan Penggunaan :

- Data yang digunakan harus bersifat numerik (angka).
- Data dibagi ke dalam kelompok nilai (interval/bin).
- Tinggi batang menunjukkan jumlah data dalam setiap kelompok.
- Batang harus berdempetan tanpa jarak antar batang.
- Jumlah kelompok harus ditentukan secara tepat (tidak terlalu sedikit atau terlalu banyak).

Kelebihan Histogram :

- Cepat mengidentifikasi pola distribusi (normal,miring) dan nilai ekstrem (outlier)
- Mudah di pahami dan alat yang efektif untuk memantau kualitas atau konsistensi proses.
- Memungkinkan perbandingan visual antar dataset yang berbeda.

Kekurangan Histogram :

- Interpretasi sangat bergantung pada lebar bins yang dipilih.
- Menyebabkan hilangnya detail data individu karena dikelompokkan dalam interval.
- Tidak cocok untuk data kategorikal (gunakan bar chart).

``` {r}
library(ggplot2)
library(dplyr)
library(tidyr)

# Ubah data jadi format long untuk dua variabel
data_long <- data_transportasi %>%
  select(Jumlah_Penumpang, Waktu_Keterlambatan) %>%
  pivot_longer(cols = everything(),
               names_to = "Variabel",
               values_to = "Nilai")

# Plot histogram gabungan dengan warna berdasarkan variabel
ggplot(data_long, aes(x = Nilai, fill = Variabel)) +
  geom_histogram(color = "black", position = "identity", bins = 20) +
  labs(title = "Histogram Jumlah Penumpang Bus dan Waktu Keterlambatan Bus",
       x = 'Jumlah penumpang',
       y = "Waktu keterlambatan",
       fill = "Variabel") +
  theme_minimal()

```

Penjelasan :

Berdasarkan histogram di atas, dapat disimpulkan bahwa mayoritas bus memiliki waktu keterlambatan yang relatif singkat (0–15 menit), sedangkan jumlah penumpang bus cukup bervariasi antara 50 hingga 150 orang per bus.
Hal ini menunjukkan bahwa keterlambatan bus tidak terlalu besar meskipun terdapat perbedaan jumlah penumpang antarbus.

## Boxplot

Definsi :

Boxplot, atau sering juga disebut diagram kotak garis (box and whisker plot), adalah salah satu metode grafis dalam statistika deskriptif yang digunakan untuk menggambarkan distribusi sekumpulan data numerik berdasarkan ringkasan lima angka utamanya.
Grafik ini sangat berguna untuk memberikan gambaran visual yang efektif dan cepat.

Aturan Penggunaan :

- Data yang digunakan harus numerik (berupa angka).
- Dapat digunakan untuk membandingkan data antar kelompok.
- Menampilkan lima ukuran statistik utama: minimum, kuartil 1 (Q1), median, kuartil 3 (Q3), dan maksimum.
- Outlier (pencilan) ditampilkan sebagai titik di luar rentang normal data.
- Sumbu X berisi kategori, sumbu Y berisi nilai numerik.

Kelebihan Boxplot :

- Menyajikan ringkasan data secara cepat dan sederhana.
- Dapat mendeteksi pencilan (outlier) dengan jelas.
- Cocok untuk membandingkan penyebaran data antar kelompok.
- Tidak memerlukan asumsi distribusi data.
- Mudah dibaca dan efisien dalam menampilkan data besar.

Kekurangan Boxplot : 

- Tidak menunjukkan bentuk distribusi data secara rinci.
- Kurang informatif jika jumlah data sedikit.
- Tidak menampilkan jumlah data secara eksplisit.
- Kurang intuitif bagi orang yang belum memahami statistik.
- Outlier yang banyak bisa saling menumpuk dan sulit dibedakan.

```{r}
library(ggplot2)

# Buat kategori jumlah penumpang agar bisa dibandingkan dalam boxplot
data_transportasi$Kategori_Penumpang <- cut(
  data_transportasi$Jumlah_Penumpang,
  breaks = c(0, 80, 110, 150),
  labels = c("Sedikit", "Sedang", "Banyak")
)

# Membuat boxplot gabungan jumlah penumpang & waktu keterlambatan
ggplot(data_transportasi,
       aes(x = Kategori_Penumpang,
           y = Waktu_Keterlambatan,
           fill = Kategori_Penumpang)) +
  geom_boxplot(width = 0.6, color = "black") +
  geom_jitter(aes(size = Jumlah_Penumpang), # Titik ukuran sesuai jumlah penumpang
              color = "chocolate4",
              alpha = 0.6,
              width = 0.15) +
  labs(
    title = "Boxplot Jumlah Penumpang Bus dan Waktu Keterlambatan Bus",
    x = "Jumlah Penumpang Bus",
    y = "Waktu Keterlambatan Bus (menit)",
    size = "Jumlah Penumpang"
  ) +
  theme_minimal()

```

Penjelasan :

Berdasarkan boxplot di atas, dapat disimpulkan bahwa semakin banyak jumlah penumpang yang diangkut bus, maka waktu keterlambatan cenderung semakin lama.
Bus dengan penumpang sedikit cenderung lebih tepat waktu, sedangkan bus dengan penumpang sedang atau banyak memiliki variasi keterlambatan yang lebih besar.
Terdapat juga beberapa bus dengan penumpang banyak yang mengalami keterlambatan ekstrem (outlier), menunjukkan adanya potensi kendala operasional saat jumlah penumpang terlalu tinggi.

## Pie Chart

Definisi :

Pie chart adalah grafik berbentuk lingkaran yang dibagi menjadi beberapa sektor untuk menunjukkan proporsi atau persentase dari keseluruhan data. Setiap sektor mewakili bagian dari total, sehingga memudahkan pembaca memahami komposisi data secara visual.

Aturan Penggunaan :

- Data yang dipakai harus data diskrit dengan nilai yang dapat dijumlahkan menjadi total 100%.
- Gunakan data dengan kategori terbatas (3-7 kategori).
- Jangan dipakai jika kategori nilainya hampir sama.
- Tidak cocok untuk perbandingan detail antar kategori.
- Label harus jelas supaya mudah dibaca.

Kelebihan Pie Chart :

- Mudah dipahami untuk menunjukkan proporsi bagian dari keseluruhan.
- Visualnya menarik dan sederhana.
- Cocok untuk data dengan sedikit kategori.
- Memudahkan melihat kontribusi masing-masing kategori secara cepat.

Kekurangan Pie Chart :

- Sulit membandingkan ukuran irisan jika banyak kategori.
- Tidak efektif untuk data dengan kategori yang nilainya mirip.
- Kurang akurat untuk menunjukkan perbandingan detail antar kategori.
- Bisa membingungkan jika jumlah kategori terlalu banyak.
- Sulit menampilkan perubahan data dari waktu ke waktu.

``` {r}
library(ggplot2)
library(dplyr)

# Ringkas data per bus
data_summary <- data_transportasi %>%
  group_by(Nama_Bus) %>%
  summarise(
    Total_Penumpang = sum(Jumlah_Penumpang),
    Rata_Keterlambatan = mean(Waktu_Keterlambatan)
  )

# Buat label
data_summary$label <- paste0(
  data_summary$Nama_Bus, "\n",
  "Penumpang: ", data_summary$Total_Penumpang, "\n",
  "Delay: ", data_summary$Rata_Keterlambatan, " mnt"
)

# Pie chart (Donut)
ggplot(data_summary, aes(x = 2, y = Total_Penumpang, fill = Nama_Bus)) +
  geom_bar(stat = "identity", width = 1, color = "white") +
  coord_polar(theta = "y", start = 0) +
  xlim(0.5, 2.5) +         # inilah yang membuat "lubang" di tengah
  geom_text(aes(label = label),
            position = position_stack(vjust = 0.5),
            color = "black", size = 2.5, fontface = "bold") +
  labs(
    title = "Pie Chart (Donut) : Jumlah Penumpang Bus dan Waktu Keterlambatan Bus",
    fill = "Nama Bus"
  ) +
  theme_void() +
  theme(
    plot.title = element_text(size = 12)
  )

```

Penjelasan :

Berdasarkan pie chart di atas, dapat disimpulkan bahwa Bus H menyumbang proporsi penumpang terbesar sekaligus mengalami keterlambatan paling lama, sedangkan Bus G memiliki penumpang paling sedikit dan waktu keterlambatan paling singkat.
Secara umum, semakin banyak jumlah penumpang yang diangkut oleh bus, waktu keterlambatannya cenderung lebih lama.

## Scatter Plot

Definisi : 

Scatter plot adalah grafik yang menampilkan hubungan antara dua variabel numerik dengan menempatkan titik-titik pada koordinat sumbu X dan Y sesuai nilai masing-masing variabel.

Aturan Penggunaan Scatter Plot :

- Digunakan untuk menunjukkan hubungan atau korelasi antara dua variabel numerik.
- Cocok untuk data yang berpasangan, misalnya pengukuran X dan Y pada objek yang sama.
- Tidak digunakan untuk variabel kategori (non-numerik).
- Berguna untuk mengidentifikasi pola, tren, kelompok, atau outlier dalam data.
- Jika datanya terlalu padat, bisa menggunakan teknik seperti transparansi titik atau jitter agar visualisasi lebih jelas.
- Bisa ditambahkan garis tren (regresi) untuk membantu interpretasi hubungan.

Kelebihan Scatter Plot :

- Menampilkan hubungan dan pola antara dua variabel numerik dengan jelas.
- Mudah mendeteksi korelasi positif, negatif, atau tidak ada korelasi.
- Memungkinkan identifikasi outlier dan kelompok data (clustering).
- Visualisasi sederhana dan intuitif.
- Bisa digunakan untuk data besar dengan tambahan fitur seperti transparansi atau jitter.

Kekurangan Scatter Plot :

- Kurang efektif jika data sangat padat dan titik-titik saling tumpang tindih.
- Tidak cocok untuk variabel kategorikal atau lebih dari dua variabel tanpa modifikasi khusus.
- Interpretasi hubungan hanya berdasarkan visual, tidak langsung memberikan nilai statistik.
- Bisa membingungkan jika sumbu tidak diberi label atau skala tidak sesuai.

``` {r}
library(ggplot2)
library(ggrepel)

ggplot(data_transportasi, aes(x = Jumlah_Penumpang, 
                              y = Waktu_Keterlambatan,
                              color = Nama_Rute)) +
  geom_point(size = 4, alpha = 0.8) +
  geom_text_repel(aes(label = Nama_Bus), size = 3) +
  geom_smooth(method = "lm", se = FALSE, color = "black", linetype = "dashed") +
  labs(
    title = "Scatter Plot Jumlah Penumpang Bus vs Waktu Keterlambatan Bus",
    x = "Jumlah Penumpang Bus",
    y = "Waktu Keterlambatan (menit)"
  ) +
  theme_minimal()

```

Penjelasan :

Berdasarkan scatterplot diatas, dapat disimpulkan bahwa terdapat hubungan antara waktu keterlambatan bus dengan jumlah penumpang bus. Bus dengan penumpang sedikit memiliki waktu keterlambatan rendah, sedangkan bus dengan penumpang banyak memiliki waktu keterlambatan tinggi. Pola ini konsisten pada seluruh rute (Grogol, Harmoni, dan Merdeka), yang menandakan bahwa kepadatan penumpang menjadi salah satu faktor utama penyebab keterlambatan bus.

## Line Plot

Definisi :

Line plot (diagram garis) adalah jenis grafik yang menampilkan data dalam bentuk titik-titik yang dihubungkan oleh garis.
Garis tersebut menunjukkan perubahan atau hubungan antara dua variabel — biasanya satu variabel numerik terhadap waktu atau terhadap variabel numerik lain.

Aturan Penggunaan :

- Gunakan data yang berurutan atau kontinu.
- Sumbu X digunakan untuk variabel independen (penyebab)
- Sumbu Y digunakan untuk variabel dependen (akibat)
- Hubungkan titik-titik data sesuai urutan yang benar.
- Pastikan jarak antar titik di sumbu X proporsional.

Kelebihan Line Plot :

- Menunjukkan tren atau perubahan dari waktu ke waktu dengan jelas.
- Mudah dibandingkan antar kelompok data, terutama bila memakai garis berbeda.
- Memberikan gambaran hubungan antar variabel (misalnya, jumlah penumpang dan waktu keterlambatan).
- Efisien untuk data kontinu, karena menghubungkan titik-titik secara berurutan.
- Visualisasi sederhana dan mudah dipahami, bahkan oleh pembaca non-teknis.

Kekurangan Line Plot :

- Tidak cocok untuk data kategori, karena garis menyiratkan urutan yang tidak ada.
- Sulit dibaca jika terlalu banyak garis atau data terlalu rapat.
- Kurang efektif untuk menunjukkan distribusi data, seperti variasi atau sebaran nilai.
- Sensitif terhadap skala sumbu, perubahan kecil pada skala bisa mengubah persepsi tren.
- Tidak menunjukkan frekuensi atau proporsi.

``` {r}
library(ggplot2)

data_transportasi$Nama_Bus <- factor(data_transportasi$Nama_Bus, levels = c("Bus A", "Bus B", "Bus C", "Bus D", "Bus E", "Bus F", "Bus G", "Bus H", "Bus I", "Bus J"))

# 3. Membuat Line Plot
plot_line <- ggplot(data_transportasi, aes(x = Nama_Bus, y = Jumlah_Penumpang, group = 1)) + 
  geom_line(color = "darkblue", size = 1) + 
  geom_point(color = "red", size = 3) +     
  labs(
    title = "Tren Jumlah Penumpang per Unit Bus",
    x = "Nama Bus",
    y = "Jumlah Penumpang"
  ) +
  theme_minimal() +
  geom_text(aes(label = Jumlah_Penumpang), vjust = -1, color = "black", size = 3.5)

# Menampilkan plot
print(plot_line)
```

Penjelasan :

Dari diagram diatas, terlihat bahwa rute Harmoni memiliki kemiringann paling curam yang berarti penambahan jumlah penumpang lebih cepat meningkatkan waktu keterlambatan dibandingkan rute lain. Secara keseluruhan, grafik ini menggambarkan bahwa semakin padat penumpang suatu bus, semakin besar kemungkinan bus mengalami keterlambatan waktu tiba, dengan perbedaan tingkat keterlambatan yang dipengaruhi oleh masing-masing rute.

## Density Plot

Definisi :

Density plot (plot kepadatan) adalah salah satu jenis grafik dalam statistik dan visualisasi data yang digunakan untuk menunjukkan distribusi suatu variabel kontinu.
Grafik ini merupakan versi halus dari histogram, karena menggunakan fungsi estimasi kepadatan kernel (kernel density estimation / KDE) untuk memperkirakan seberapa padat data berada di setiap rentang nilai.

Aturan Penggunaan :

- Menggunakan data kontinu.
- Cocok untuk membandingkan beberapa distribusi antarkelompok.
- Gunakan alpha < 1 jika ada beberapa kategori.
- Nilai sumbu Y menunjukkan kepadatan.

Kelebihan Density Plot :

- Menampilkan distribusi data dengan halus.
- Mudah membandingkan beberapa kelompok.
- Tidak tergantung pada lebar bin seperti histogram.
- Memberikan gambaran probabilitas relatif. 

Kekurangan Density Plot :

- Tidak menunjukkan jumlah data sebenarnya.
- Kurang akurat untuk data kecil (n < 20).
- Sulit dipahami pemula.
- Tidak cocok untuk data kategorik atau diskrit.

``` {r}
library(ggplot2)

plot_keterlambatan <- ggplot(data_transportasi, aes(x = Waktu_Keterlambatan)) +
  geom_density(fill = "blue", color = "blue", alpha = 0.7) +
  labs(
    title = "Density Plot Waktu Keterlambatan Bus (Keseluruhan)",
    x = "Waktu Keterlambatan (menit)",
    y = "Kepadatan"
  ) +
  theme_minimal()

# Menampilkan 
print(plot_keterlambatan)


# Jumlah Penumpang (Keseluruhan)
plot_penumpang <- ggplot(data_transportasi, aes(x = Jumlah_Penumpang)) +
  geom_density(fill = "orange", color = "orange", alpha = 0.7) +
  labs(
    title = "Density Plot Jumlah Penumpang Bus",
    x = "Jumlah Penumpang",
    y = "Kepadatan"
  ) +
  theme_minimal()

# Menampilkan
print(plot_penumpang)

#Waktu Keterlambatan berdasarkan Nama Rute (Bergrup)
plot_keterlambatan_rute <- ggplot(data_transportasi, aes(x = Waktu_Keterlambatan, fill = Nama_Rute)) +
  geom_density(alpha = 0.5, position = "identity") + # position="identity" memungkinkan kurva tumpang tindih
  labs(
    title = "Density Plot Waktu Keterlambatan berdasarkan Rute",
    x = "Waktu Keterlambatan (menit)",
    y = "Kepadatan"
  ) +
  scale_fill_manual(values = c("Rute Merdeka" = "green", "Rute Harmoni" = "pink", "Rute Grogol" = "lightblue")) +
  theme_minimal()

# Menampilkan
print(plot_keterlambatan_rute)
```

Penjelasan :

Berdasarkan density plot diatas, menunjukkan bahwa rute Harmoni memiliki tingkat keterlambatan tertinggi karena jumlah penumpangnya paling banyak. Rute Merdeka juga menunjukkan performa paling baik karena waktu keterlambatannya tetap rendah meski jumlah penumpang bervariasi.Density plot ini membantu menunjukkan sebaran dan konsentrasi data antar rute, sehingga kita bisa dengan mudah melihat rute mana yang paling padat dan mana yang paling efisien.

## Ridgeline Plot

Definisi :

Ridgeline Plot adalah visualisasi data di mana beberapa plot kerapatan (density plots) ditumpuk secara vertikal dan sedikit tumpang tindih. Setiap "lapisan" (ridge) mewakili distribusi data dari satu kategori atau kelompok, memungkinkan perbandingan bentuk, posisi puncak (modus), dan penyebaran (varians) antar kelompok.


Aturan penggunaan :

- Membandingkan Distribusi.
- Data Deret Waktu (Time Series) Kuantitatif menunjukkan perubahan dalam distribusi variabel dari waktu ke waktu.
- Memvisualisasikan Data Numerik Kontinu.

Kelebihan :

- Efisiensi Ruang: Dapat menampilkan banyak distribusi secara ringkas dalam ruang yang terbatas.
- Perbandingan yang Jelas: Tumpang tindihnya plot kerapatan menyoroti perbedaan utama dalam bentuk dan lokasi puncak distribusi antar kelompok.
- Menarik Secara Visual: Estetika yang unik membuat plot ini menarik dan mudah dipahami.
- Menunjukkan Tren: Efektif untuk menunjukkan perubahan tren distribusi melintasi kategori yang berurutan (misalnya, waktu).

Kekurangan :

- Sulit Dibaca Jika Terlalu Banyak Kategori.
- Data Kuantil Tertentu Sulit Dilihat: Nilai kuantil spesifik (median, kuartil) atau nilai data individual (seperti yang terlihat pada Box Plot) tidak langsung terlihat.
- Membutuhkan Interpretasi yang Hati-Hati: Tumpang tindih dapat menyebabkan beberapa bagian kurva tersembunyi (occlusion), yang mungkin menyembunyikan detail distribusi di balik kurva di depannya.
- Kurang Cocok untuk Data Sedikit: Kurva kerapatan (density) mungkin tidak akurat atau informatif jika data untuk setiap kategori terlalu sedikit.

```{r}
library(ggplot2)
library(ggridges)

data_transportasi$Nama_Rute <- factor(
  data_transportasi$Nama_Rute, 
  levels = c("Rute Merdeka", "Rute Harmoni", "Rute Grogol")
)

# 2. Membuat Ridgeline Plot
plot_ridgeline <- ggplot(
  data_transportasi, 
  aes(
    x = Waktu_Keterlambatan, 
    y = Nama_Rute, 
    fill = Nama_Rute 
  )
) +
  geom_density_ridges(
    alpha = 0.8, 
    scale = 1.5, 
    rel_min_height = 0.01 
  ) +
  labs(
    title = "Distribusi Waktu Keterlambatan Bus Berdasarkan Rute",
    x = "Waktu Keterlambatan (menit)",
    y = "Nama Rute"
  ) +
  theme_ridges() +
  theme(
    legend.position = "none", 
    plot.title = element_text(hjust = 0.5)
  )

# Menampilkan plot
print(plot_ridgeline)

```

Penjelasan :

Ridgeline plot yang dihasilkan memvisualisasikan perbedaan dalam distribusi Waktu Keterlambatan di antara ketiga Rute Bus yang berbeda yaitu Rute Merdeka, Rute Harmoni, dan Rute Grogol. Dari bentuk puncak (kepadatan) dan posisinya pada sumbu X (Waktu Keterlambatan), kita dapat membandingkan tren keterlambatan antar rute. Puncak yang berada paling jauh ke kanan (nilai X besar) menunjukkan rute tersebut (Rute Harmoni) paling sering mengalami keterlambatan yang lebih lama.
Puncak yang berada paling dekat dengan nol (nilai X kecil) mengindikasikan rute tersebut (Rute Grogol) cenderung memiliki keterlambatan yang lebih singkat atau paling tepat waktu.Secara keseluruhan, plot ini menyoroti bahwa rata-rata dan variasi keterlambatan sangat berbeda antar rute, di mana Rute Harmoni tampak paling rentan terhadap penundaan yang signifikan.

# . Kesimpulan
Dapat dilihat dari hasil analisis dan visualisasi data bahwa jika sebuah transportasi publik (bus) membawa penumpang yang cukup banyak akan membuat bus tersebut mengalami kendala dalam waktu keterlambatan yang cukup tinggi, hal ini di karenakan bus harus berhenti di setiap rute, sedangkan jika penumpang lebih sedikit kemungkinan waktu keterlambatan bus akan lebih kecil. Kondisi operasional transportasi publik (bus) berperan penting terhadap tingkat efisiensi dan pemanfaatan layanan. Dan dari visualisasi ini membantu kita dalam melihat hubungan antara jumlah penumpang dan waktu keterlambatan, serta memberikan dasar informasi bagi pengambilan keputusan.