Dalam proses analisis data, visualisasi memiliki peran penting untuk membantu memahami pola dan hubungan antar variabel sebelum dilakukan analisis statistik lanjutan. Setelah memahami karakteristik masing-masing variabel secara terpisah (univariat), tahap berikutnya dalam Exploratory Data Analysis (EDA) adalah mengeksplorasi hubungan antara dua variabel atau yang disebut sebagai analisis bivariat. Visualisasi bivariat membantu menjawab pertanyaan penting seperti apakah terdapat hubungan antara dua variabel, bagaimana arah hubungannya, serta apakah pola tersebut bersifat linear atau tidak.

Pada tugas ini, dilakukan eksplorasi visualisasi bivariat menggunakan dataset Bike Sharing. Dataset ini berisi informasi terkait jumlah penyewaan sepeda harian beserta faktor-faktor yang mungkin memengaruhinya, seperti musim, kelembapan, dan jenis pengguna. Tujuan dari analisis ini adalah untuk memahami bagaimana variabel-variabel tertentu saling berinteraksi dan apakah terdapat pola yang dapat dijelaskan secara visual.

Visualisasi yang digunakan disesuaikan dengan tipe variabel yang dianalisis, yaitu numerik dengan numerik menggunakan scatter plot, serta kategorik dengan numerik menggunakan boxplot dan violin plot. Pemilihan jenis grafik dilakukan berdasarkan karakteristik data agar pola hubungan dapat terlihat secara jelas dan tidak menyesatkan. Dengan pendekatan ini, diharapkan analisis tidak hanya bersifat deskriptif, tetapi juga mampu memberikan pemahaman yang lebih mendalam mengenai dinamika penggunaan sepeda dalam berbagai kondisi.

Scatter Plot

Scatter plot adalah grafik yang menunjukkan hubungan antara dua variabel numerik. Setiap titik pada scatter plot mewakili satu pengamatan, dengan posisi titik ditentukan oleh nilai kedua variabel. Berikut adalah contoh kode untuk membuat scatter plot antara cnt dan temp:

Scatter plot di atas menunjukkan hubungan antara suhu (temp) dan jumlah penyewaan sepeda (cnt). Setiap titik pada grafik mewakili satu hari, dengan posisi horizontal menunjukkan suhu dan posisi vertikal menunjukkan jumlah penyewaan sepeda pada hari tersebut. Dari visualisasi ini terlihat bahwa terdapat pola positif antara suhu dan jumlah penyewaan sepeda, di mana semakin tinggi suhu, semakin banyak penyewaan sepeda yang terjadi. Hal ini menunjukkan bahwa cuaca yang lebih hangat cenderung meningkatkan penggunaan sepeda, sementara suhu yang lebih rendah mungkin membuat orang enggan untuk menyewa sepeda. Meskipun terdapat beberapa titik yang menyebar, pola umum menunjukkan bahwa suhu memiliki pengaruh positif terhadap jumlah penyewaan sepeda.

Boxplot

Boxplot bivariate digunakan untuk membandingkan distribusi variabel numerik (cnt) berdasarkan kategori dari variabel lain, seperti musim (season). Berikut adalah contoh kode untuk membuat boxplot bivariate antara cnt dan season:

Boxplot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kategori musim (season). Setiap kotak pada grafik mewakili distribusi penyewaan sepeda untuk masing-masing musim, dengan garis di dalam kotak menunjukkan median, batas kotak menunjukkan kuartil pertama (Q1) dan kuartil ketiga (Q3), serta whisker yang memanjang menunjukkan rentang data. Dari visualisasi ini terlihat bahwa musim Summer memiliki jumlah penyewaan sepeda yang lebih tinggi dibandingkan dengan musim lainnya, dengan median yang berada di kisaran 5.000 penyewaan per hari. Sementara itu, musim Winter memiliki jumlah penyewaan yang lebih rendah, dengan median di bawah 3.000 penyewaan per hari. Hal ini menunjukkan bahwa penggunaan sepeda cenderung meningkat selama musim panas dan menurun selama musim dingin, kemungkinan karena faktor cuaca yang mempengaruhi kenyamanan dalam menggunakan sepeda.

Violin Plot

Violin plot bivariate digunakan untuk membandingkan distribusi variabel numerik (cnt) berdasarkan kategori dari variabel lain, seperti kondisi cuaca (weathersit). Berikut adalah contoh kode untuk membuat violin plot bivariate antara cnt dan weathersit:

Violin plot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kondisi cuaca (weathersit). Setiap bentuk violin mewakili distribusi penyewaan sepeda untuk masing-masing kondisi cuaca, dengan bagian yang lebih lebar menunjukkan bahwa lebih banyak hari memiliki jumlah penyewaan pada kisaran tersebut. Boxplot di dalam violin memberikan informasi statistik ringkas, seperti median dan kuartil. Dari visualisasi ini terlihat bahwa kondisi cuaca yang cerah (Clear) memiliki distribusi penyewaan sepeda yang lebih tinggi dan lebih padat dibandingkan dengan kondisi cuaca lainnya, seperti hujan ringan (Light Rain) atau hujan deras (Heavy Rain), yang memiliki distribusi penyewaan yang lebih rendah. Hal ini menunjukkan bahwa kondisi cuaca yang baik cenderung meningkatkan penggunaan sepeda, sementara kondisi cuaca yang buruk dapat mengurangi minat orang untuk menyewa sepeda.

Scatter Plot

Scatter plot adalah grafik yang digunakan untuk melihat hubungan antara dua variabel numerik dengan menampilkan setiap pasangan data dalam bentuk titik. Sumbu horizontal (X) biasanya menunjukkan variabel penjelas, sedangkan sumbu vertikal (Y) menunjukkan variabel respon. Setiap titik mewakili satu observasi, sehingga kita bisa melihat pola hubungan secara langsung tanpa menggabungkan atau merata-ratakan data. Grafik ini membantu kita memahami apakah terdapat hubungan positif, negatif, tidak ada hubungan, serta apakah hubungan tersebut berbentuk linear atau melengkung.

Berdasarkan visualisasi hubungan antara kelembapan (hum) dan jumlah penyewaan sepeda (cnt), terlihat bahwa hubungan keduanya tidak sepenuhnya linear. Pada tingkat kelembapan rendah hingga sedang, jumlah penyewaan cenderung meningkat. Namun, setelah mencapai titik tertentu (sekitar kelembapan menengah ke atas), jumlah penyewaan mulai menurun. Garis merah (smooth line) menunjukkan pola yang melengkung, yang berarti hubungan antara kelembapan dan jumlah penyewaan bersifat non-linear.

Hal ini dapat diartikan bahwa kondisi kelembapan yang terlalu tinggi kemungkinan membuat orang kurang nyaman untuk bersepeda, sehingga jumlah penyewaan menurun. Sebaliknya, kelembapan yang terlalu rendah juga tidak menunjukkan jumlah penyewaan yang sangat tinggi. Secara umum, penyewaan sepeda tampaknya paling tinggi terjadi pada tingkat kelembapan sedang. Selain itu, titik-titik yang cukup tersebar menunjukkan bahwa meskipun ada pola, hubungan ini tidak terlalu kuat karena masih terdapat variasi jumlah penyewaan pada tingkat kelembapan yang sama.

Boxplot

Boxplot adalah grafik yang digunakan untuk membandingkan distribusi data numerik pada beberapa kelompok kategori. Grafik ini menampilkan median (garis di dalam kotak), rentang antar kuartil atau IQR (panjang kotak), serta nilai minimum dan maksimum (garis “whisker”). Dengan boxplot, kita dapat melihat perbedaan pusat data, tingkat penyebaran, dan variasi antar kelompok secara lebih jelas.

Berdasarkan visualisasi distribusi jumlah pengguna terdaftar (registered) berdasarkan musim, terlihat adanya perbedaan yang cukup jelas antar musim. Dalam dataset ini, musim dikodekan sebagai berikut: musim 1 adalah Spring (musim semi), musim 2 adalah Summer (musim panas), musim 3 adalah Fall (musim gugur), dan musim 4 adalah Winter (musim dingin).

Dari grafik terlihat bahwa musim 3 (Fall/musim gugur) memiliki median jumlah pengguna terdaftar paling tinggi dibandingkan musim lainnya. Hal ini menunjukkan bahwa pada musim gugur, penggunaan sepeda oleh pengguna terdaftar cenderung paling ramai. Musim 2 (Summer/musim panas) dan musim 4 (Winter/musim dingin) juga menunjukkan jumlah pengguna yang relatif tinggi, meskipun masih sedikit di bawah musim 3.

Sebaliknya, musim 1 (Spring/musim semi) memiliki median paling rendah, yang berarti pada musim ini jumlah pengguna terdaftar cenderung lebih sedikit dibanding musim lainnya. Selain itu, penyebaran data pada musim 2, 3, dan 4 terlihat lebih lebar dibanding musim 1, yang menunjukkan variasi jumlah pengguna yang lebih besar pada musim-musim tersebut.

Secara keseluruhan, dapat disimpulkan bahwa musim berpengaruh terhadap jumlah pengguna terdaftar. Penggunaan sepeda meningkat dari musim semi ke musim gugur, lalu sedikit menurun di musim dingin, namun tetap lebih tinggi dibanding musim semi.

Violin Plot

Violin plot adalah grafik yang digunakan untuk melihat distribusi data numerik pada beberapa kelompok kategori dengan menampilkan bentuk kepadatan datanya. Berbeda dengan boxplot yang hanya menunjukkan median dan rentang kuartil, violin plot memperlihatkan bagaimana data tersebar dan di mana nilai paling banyak terkonsentrasi. Bagian yang lebih lebar menunjukkan kepadatan data yang lebih tinggi, sedangkan bagian yang menyempit menunjukkan lebih sedikit observasi. Pada grafik ini juga ditampilkan boxplot kecil di tengah untuk memperjelas median dan sebaran utama data.

Berdasarkan visualisasi distribusi jumlah pengguna casual berdasarkan musim, terlihat perbedaan pola penggunaan yang cukup jelas. Dalam dataset ini, musim 1 adalah Spring (musim semi), musim 2 adalah Summer (musim panas), musim 3 adalah Fall (musim gugur), dan musim 4 adalah Winter (musim dingin).

Musim 3 (Fall/musim gugur) menunjukkan distribusi yang paling tinggi dan paling lebar, yang berarti jumlah pengguna casual pada musim ini cenderung lebih besar dan lebih bervariasi. Musim 2 (Summer/musim panas) juga menunjukkan jumlah pengguna casual yang relatif tinggi, meskipun tidak setinggi musim 3. Sebaliknya, musim 1 (Spring/musim semi) memiliki distribusi yang paling rendah dan paling sempit, menandakan jumlah pengguna casual lebih sedikit dan relatif lebih stabil. Musim 4 (Winter/musim dingin) menunjukkan jumlah yang lebih tinggi dibanding musim semi, tetapi masih lebih rendah dibanding musim panas dan gugur.

Secara umum, dapat disimpulkan bahwa pengguna casual cenderung lebih banyak menyewa sepeda pada musim panas dan gugur, kemungkinan karena kondisi cuaca yang lebih nyaman untuk aktivitas luar ruangan. Sementara itu, pada musim semi dan musim dingin, jumlah pengguna casual cenderung lebih rendah.

Kesimpulan

Berdasarkan seluruh hasil visualisasi bivariat yang telah dilakukan, dapat disimpulkan bahwa faktor lingkungan dan musim memiliki peran penting dalam memengaruhi pola penggunaan sepeda pada dataset Bike Sharing. Visualisasi antara jumlah penyewaan sepeda (cnt) dengan suhu (temp) menunjukkan hubungan positif, di mana peningkatan suhu cenderung diikuti oleh peningkatan jumlah penyewaan. Sebaliknya, suhu yang lebih rendah berkaitan dengan penurunan minat masyarakat untuk menyewa sepeda. Selain itu, musim juga memengaruhi tingkat penggunaan sepeda. Musim panas (Summer) dan musim gugur (Fall) menunjukkan tingkat penyewaan yang lebih tinggi dibandingkan musim semi (Spring) dan musim dingin (Winter), yang kemungkinan besar dipengaruhi oleh kenyamanan kondisi cuaca.

Kondisi cuaca (weathersit) juga terbukti berpengaruh terhadap jumlah penyewaan. Cuaca cerah mendorong peningkatan penggunaan sepeda, sedangkan kondisi cuaca yang kurang baik seperti hujan atau salju cenderung menurunkan jumlah penyewaan. Temuan ini memperkuat bahwa faktor cuaca memiliki pengaruh signifikan terhadap perilaku pengguna sepeda.

Selain itu, hasil visualisasi tambahan menunjukkan bahwa kelembapan memiliki hubungan non-linear dengan jumlah penyewaan, di mana tingkat kelembapan sedang cenderung berkaitan dengan jumlah penyewaan yang lebih tinggi dibandingkan kelembapan yang terlalu rendah atau terlalu tinggi. Analisis berdasarkan musim juga menunjukkan bahwa pengguna terdaftar (registered) dan pengguna casual memiliki pola distribusi yang berbeda antar musim, dengan puncak penggunaan umumnya terjadi pada musim panas dan gugur.

Secara keseluruhan, dapat disimpulkan bahwa variabel-variabel lingkungan seperti suhu, musim, kelembapan, dan kondisi cuaca secara bersama-sama memengaruhi dinamika penggunaan sepeda. Informasi ini dapat dimanfaatkan untuk perencanaan operasional dan strategi layanan sepeda yang lebih efektif, seperti penyesuaian jumlah armada, strategi promosi musiman, serta antisipasi terhadap perubahan kondisi cuaca.