Pendahuluan

Analisis data merupakan langkah penting dalam memahami pola serta hubungan antar variabel yang terdapat dalam suatu dataset. Dengan bantuan visualisasi data, informasi yang terkandung dalam data dapat disajikan secara lebih jelas sehingga memudahkan proses interpretasi dan pengambilan kesimpulan. Salah satu dataset yang sering digunakan dalam pembelajaran analisis data adalah dataset Diamonds Dataset yang tersedia pada paket R melalui library ggplot2. Dataset ini berisi informasi mengenai karakteristik berlian seperti carat, cut, color, clarity, serta price.

Dalam studi kasus ini dilakukan eksplorasi data menggunakan beberapa jenis visualisasi untuk memahami pola yang terdapat pada data berlian. Salah satu pendekatan visualisasi yang digunakan adalah time series plot, yaitu grafik yang digunakan untuk melihat perubahan nilai suatu variabel berdasarkan urutan waktu atau urutan observasi. Meskipun dataset berlian tidak secara langsung memiliki variabel waktu, visualisasi time series dapat digunakan dengan memanfaatkan urutan data sebagai representasi observasi sehingga memungkinkan untuk melihat pola perubahan harga berlian secara berurutan.

Melalui visualisasi ini diharapkan dapat memberikan gambaran mengenai bagaimana variasi harga berlian berubah sepanjang observasi data. Dengan demikian, analisis ini dapat membantu dalam memahami pola fluktuasi harga serta memberikan wawasan tambahan mengenai karakteristik data yang sedang dianalisis.

# Memuat data
bike_data <- read.csv("C:/Users/USER/Downloads/day.csv")

# Mengubah kolom tanggal menjadi format Date
bike_data$dteday <- as.Date(bike_data$dteday)

# Melihat beberapa data awal
head(bike_data)
##   instant     dteday season yr mnth holiday weekday workingday weathersit
## 1       1 2011-01-01      1  0    1       0       6          0          2
## 2       2 2011-01-02      1  0    1       0       0          0          2
## 3       3 2011-01-03      1  0    1       0       1          1          1
## 4       4 2011-01-04      1  0    1       0       2          1          1
## 5       5 2011-01-05      1  0    1       0       3          1          1
## 6       6 2011-01-06      1  0    1       0       4          1          1
##       temp    atemp      hum windspeed casual registered  cnt
## 1 0.344167 0.363625 0.805833 0.1604460    331        654  985
## 2 0.363478 0.353739 0.696087 0.2485390    131        670  801
## 3 0.196364 0.189405 0.437273 0.2483090    120       1229 1349
## 4 0.200000 0.212122 0.590435 0.1602960    108       1454 1562
## 5 0.226957 0.229270 0.436957 0.1869000     82       1518 1600
## 6 0.204348 0.233209 0.518261 0.0895652     88       1518 1606
# Membuat tabel deskripsi variabel numerik
deskripsi_data <- data.frame(
  No = 1:7,
  Variabel = c(
    "temp",
    "atemp",
    "hum",
    "windspeed",
    "casual",
    "registered",
    "cnt"
  ),
  Keterangan = c(
    "Suhu dalam skala Celsius",
    "Suhu yang dirasakan oleh pengguna",
    "Kelembapan udara",
    "Kecepatan angin",
    "Jumlah penyewaan sepeda oleh pengguna kasual",
    "Jumlah penyewaan sepeda oleh pengguna terdaftar",
    "Total jumlah penyewaan sepeda (casual + registered)"
  )
)

# Menampilkan tabel
kable(
  deskripsi_data,
  align = c("c","l","l"),
  caption = "Deskripsi Variabel Numerik pada Dataset Bike Sharing"
)
Deskripsi Variabel Numerik pada Dataset Bike Sharing
No Variabel Keterangan
1 temp Suhu dalam skala Celsius
2 atemp Suhu yang dirasakan oleh pengguna
3 hum Kelembapan udara
4 windspeed Kecepatan angin
5 casual Jumlah penyewaan sepeda oleh pengguna kasual
6 registered Jumlah penyewaan sepeda oleh pengguna terdaftar
7 cnt Total jumlah penyewaan sepeda (casual + registered)

Grafik Time Series Penyewaan Sepeda

Grafik time series digunakan untuk menampilkan perubahan suatu variabel berdasarkan urutan waktu. Pada dataset penyewaan sepeda ini, variabel waktu yang digunakan adalah tanggal (dteday), sedangkan variabel yang diamati adalah total jumlah penyewaan sepeda (cnt). Visualisasi ini bertujuan untuk memperlihatkan bagaimana jumlah penyewaan sepeda berubah dari hari ke hari selama periode pengamatan. Melalui grafik time series, dapat dilihat pola fluktuasi jumlah penyewaan sepeda sepanjang tahun 2011 hingga 2012 sehingga membantu dalam mengidentifikasi kecenderungan peningkatan atau penurunan penyewaan sepeda dari waktu ke waktu. Dengan demikian, grafik ini memberikan gambaran mengenai dinamika penggunaan layanan penyewaan sepeda selama periode tersebut sebelum dilakukan analisis lebih lanjut.

# Time Series jumlah penyewaan sepeda
ggplot(bike_data, aes(x = dteday, y = cnt)) +
  geom_line(color = "pink", linewidth = 1) +
  labs(
    title = "Grafik Time Series Penyewaan Sepeda (2011–2012)",
    x = "Tanggal",
    y = "Total Penyewaan Sepeda"
  ) +
  theme_minimal()

Grafik time series penyewaan sepeda tahun 2011–2012 menunjukkan bahwa jumlah penyewaan sepeda mengalami fluktuasi dari waktu ke waktu, namun secara umum terlihat adanya kecenderungan peningkatan dari awal tahun 2011 hingga pertengahan tahun 2012. Pada awal tahun 2011 jumlah penyewaan masih relatif rendah, kemudian meningkat secara bertahap hingga mencapai nilai yang lebih tinggi pada pertengahan hingga akhir tahun. Selain itu, terlihat juga beberapa penurunan tajam pada waktu-waktu tertentu yang menunjukkan adanya hari-hari dengan jumlah penyewaan yang jauh lebih sedikit dibandingkan hari lainnya. Secara keseluruhan, pola pada grafik menunjukkan bahwa penggunaan layanan penyewaan sepeda cenderung meningkat seiring waktu, meskipun tetap disertai dengan fluktuasi harian yang kemungkinan dipengaruhi oleh faktor lain seperti cuaca, musim, atau kondisi tertentu pada hari tersebut.

Scatter Plot Penyewaan Sepeda Berdasarkan Waktu

Scatter plot merupakan salah satu jenis visualisasi yang digunakan untuk menampilkan hubungan antara dua variabel dalam bentuk titik-titik pada bidang koordinat. Pada visualisasi ini, scatter plot digunakan untuk menggambarkan hubungan antara waktu pengamatan yang direpresentasikan oleh tanggal (dteday) dengan total jumlah penyewaan sepeda (cnt). Setiap titik pada grafik mewakili jumlah penyewaan sepeda pada satu hari tertentu. Melalui visualisasi ini, dapat diamati bagaimana penyebaran data penyewaan sepeda dari waktu ke waktu serta melihat variasi atau fluktuasi jumlah penyewaan pada setiap tanggal selama periode pengamatan. Dengan demikian, scatter plot membantu memberikan gambaran mengenai pola distribusi data penyewaan sepeda berdasarkan waktu.

# Scatter plot penyewaan sepeda berdasarkan waktu
ggplot(bike_data, aes(x = dteday, y = cnt)) +
  geom_point(color = "steelblue", alpha = 0.7, size = 2) +
  labs(
    title = "Scatter Plot Penyewaan Sepeda Berdasarkan Waktu",
    x = "Tanggal",
    y = "Total Penyewaan Sepeda"
  ) +
  theme_minimal()

Scatter plot penyewaan sepeda berdasarkan waktu menunjukkan bahwa jumlah penyewaan sepeda mengalami variasi yang cukup besar dari hari ke hari selama periode 2011 hingga 2012. Pada awal tahun 2011, jumlah penyewaan masih relatif rendah dan titik-titik data banyak berada pada kisaran nilai yang kecil. Seiring berjalannya waktu, terutama memasuki pertengahan hingga akhir tahun 2011, jumlah penyewaan mulai meningkat dan titik-titik pada grafik semakin tersebar pada nilai yang lebih tinggi. Pada tahun 2012 terlihat bahwa sebagian besar titik berada pada kisaran penyewaan yang lebih tinggi dibandingkan tahun sebelumnya, yang menunjukkan adanya peningkatan penggunaan layanan penyewaan sepeda. Selain itu, terlihat juga beberapa titik dengan nilai yang sangat rendah yang mengindikasikan adanya hari-hari tertentu dengan jumlah penyewaan yang jauh lebih sedikit dibandingkan hari lainnya. Secara keseluruhan, scatter plot ini memperlihatkan pola peningkatan jumlah penyewaan sepeda dari waktu ke waktu dengan variasi penyewaan yang cukup beragam pada setiap harinya.

Boxplot Penyewaan Sepeda per Tahun

Boxplot merupakan salah satu bentuk visualisasi yang digunakan untuk menggambarkan distribusi data serta melihat perbandingan nilai suatu variabel antar kelompok. Pada visualisasi ini, boxplot digunakan untuk menampilkan distribusi total jumlah penyewaan sepeda (cnt) berdasarkan tahun pengamatan. Grafik ini bertujuan untuk melihat perbedaan pola penyewaan sepeda antara tahun 2011 dan 2012 serta mengidentifikasi nilai median, rentang data, dan kemungkinan adanya nilai ekstrem (outlier). Melalui boxplot ini, dapat diperoleh gambaran mengenai sebaran jumlah penyewaan sepeda pada masing-masing tahun sehingga memudahkan dalam membandingkan tingkat penggunaan layanan penyewaan sepeda dari satu tahun ke tahun lainnya.

# Membuat variabel tahun dari tanggal
bike_data$year <- format(bike_data$dteday, "%Y")

# Boxplot penyewaan sepeda per tahun
ggplot(bike_data, aes(x = year, y = cnt)) +
  geom_boxplot(fill = "pink", alpha = 0.8) +
  labs(
    title = "Boxplot Penyewaan Sepeda per Tahun",
    x = "Tahun",
    y = "Total Penyewaan Sepeda"
  ) +
  theme_minimal()

Boxplot penyewaan sepeda per tahun menunjukkan bahwa distribusi jumlah penyewaan sepeda pada tahun 2012 cenderung lebih tinggi dibandingkan tahun 2011. Hal ini terlihat dari nilai median pada tahun 2012 yang berada di atas median tahun 2011, yang menunjukkan bahwa secara umum jumlah penyewaan sepeda pada tahun 2012 lebih besar. Selain itu, rentang data pada tahun 2012 juga lebih luas, yang menandakan variasi jumlah penyewaan sepeda yang lebih besar dibandingkan tahun sebelumnya. Pada grafik juga terlihat adanya nilai yang sangat rendah pada tahun 2012 yang dapat dianggap sebagai outlier, yaitu hari dengan jumlah penyewaan yang jauh lebih sedikit dibandingkan hari lainnya. Secara keseluruhan, boxplot ini menunjukkan bahwa penggunaan layanan penyewaan sepeda mengalami peningkatan pada tahun 2012 dibandingkan tahun 2011.

Kesimpulan

Berdasarkan hasil visualisasi data yang ditampilkan melalui grafik time series, scatter plot, dan boxplot, dapat disimpulkan bahwa jumlah penyewaan sepeda selama periode tahun 2011 hingga 2012 menunjukkan kecenderungan mengalami peningkatan. Grafik time series dan scatter plot memperlihatkan bahwa jumlah penyewaan sepeda berfluktuasi dari waktu ke waktu, namun secara umum nilai penyewaan pada tahun 2012 lebih tinggi dibandingkan tahun 2011. Hal ini juga didukung oleh hasil boxplot yang menunjukkan bahwa median serta sebaran jumlah penyewaan sepeda pada tahun 2012 berada pada tingkat yang lebih tinggi dibandingkan tahun sebelumnya. Meskipun demikian, terdapat beberapa hari dengan jumlah penyewaan yang sangat rendah yang kemungkinan dipengaruhi oleh faktor tertentu seperti kondisi cuaca, musim, atau faktor lainnya. Secara keseluruhan, hasil visualisasi ini menunjukkan bahwa penggunaan layanan penyewaan sepeda cenderung meningkat dari tahun 2011 ke tahun 2012 dengan variasi jumlah penyewaan yang cukup beragam pada setiap harinya.