Pendahuluan

Visualisasi bivariat merupakan tahap penting dalam Exploratory Data Analysis (EDA) karena memungkinkan analis memahami bagaimana dua variabel saling berinteraksi dan membentuk pola tertentu. Jika visualisasi univariat berfokus pada karakteristik satu variabel, maka visualisasi bivariat membantu menjawab pertanyaan yang lebih mendalam seperti apakah terdapat hubungan, seberapa kuat hubungan tersebut, serta bagaimana bentuk pola yang terbentuk.

Pada tugas ini digunakan dataset penyewaan sepeda harian yang memuat informasi terkait kondisi cuaca, waktu, serta jumlah penyewaan. Melalui visualisasi bivariat, analisis difokuskan untuk mengidentifikasi hubungan antar variabel yang berpotensi memengaruhi permintaan penyewaan sepeda.

Adapun pertanyaan analitis yang ingin dijawab melalui visualisasi adalah sebagai berikut:

Melalui enam pertanyaan tersebut, diharapkan visualisasi tidak hanya menampilkan grafik, tetapi juga memberikan pemahaman awal mengenai pola hubungan dalam data yang dapat menjadi dasar analisis lanjutan.

Visualisasi 1: Scatter Plot

Scatter plot adalah grafik yang menunjukkan hubungan antara dua variabel numerik. Setiap titik pada scatter plot mewakili satu pengamatan, dengan posisi titik ditentukan oleh nilai kedua variabel. Berikut adalah contoh kode untuk membuat scatter plot antara cnt dan temp:

Scatter plot di atas menunjukkan hubungan antara suhu (temp) dan jumlah penyewaan sepeda (cnt). Setiap titik pada grafik mewakili satu hari, dengan posisi horizontal menunjukkan suhu dan posisi vertikal menunjukkan jumlah penyewaan sepeda pada hari tersebut. Dari visualisasi ini terlihat bahwa terdapat pola positif antara suhu dan jumlah penyewaan sepeda, di mana semakin tinggi suhu, semakin banyak penyewaan sepeda yang terjadi. Hal ini menunjukkan bahwa cuaca yang lebih hangat cenderung meningkatkan penggunaan sepeda, sementara suhu yang lebih rendah mungkin membuat orang enggan untuk menyewa sepeda. Meskipun terdapat beberapa titik yang menyebar, pola umum menunjukkan bahwa suhu memiliki pengaruh positif terhadap jumlah penyewaan sepeda.

Visualisasi 2: Box Plot

Boxplot bivariate digunakan untuk membandingkan distribusi variabel numerik (cnt) berdasarkan kategori dari variabel lain, seperti musim (season). Berikut adalah contoh kode untuk membuat boxplot bivariate antara cnt dan season:

Boxplot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kategori musim (season). Setiap kotak pada grafik mewakili distribusi penyewaan sepeda untuk masing-masing musim, dengan garis di dalam kotak menunjukkan median, batas kotak menunjukkan kuartil pertama (Q1) dan kuartil ketiga (Q3), serta whisker yang memanjang menunjukkan rentang data. Dari visualisasi ini terlihat bahwa musim Summer memiliki jumlah penyewaan sepeda yang lebih tinggi dibandingkan dengan musim lainnya, dengan median yang berada di kisaran 5.000 penyewaan per hari. Sementara itu, musim Winter memiliki jumlah penyewaan yang lebih rendah, dengan median di bawah 3.000 penyewaan per hari. Hal ini menunjukkan bahwa penggunaan sepeda cenderung meningkat selama musim panas dan menurun selama musim dingin, kemungkinan karena faktor cuaca yang mempengaruhi kenyamanan dalam menggunakan sepeda.

Visualisasi 3: Violin Plot

Violin plot bivariate digunakan untuk membandingkan distribusi variabel numerik (cnt) berdasarkan kategori dari variabel lain, seperti kondisi cuaca (weathersit). Berikut adalah contoh kode untuk membuat violin plot bivariate antara cnt dan weathersit:

Violin plot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kondisi cuaca (weathersit). Setiap bentuk violin mewakili distribusi penyewaan sepeda untuk masing-masing kondisi cuaca, dengan bagian yang lebih lebar menunjukkan bahwa lebih banyak hari memiliki jumlah penyewaan pada kisaran tersebut. Boxplot di dalam violin memberikan informasi statistik ringkas, seperti median dan kuartil. Dari visualisasi ini terlihat bahwa kondisi cuaca yang cerah (Clear) memiliki distribusi penyewaan sepeda yang lebih tinggi dan lebih padat dibandingkan dengan kondisi cuaca lainnya, seperti hujan ringan (Light Rain) atau hujan deras (Heavy Rain), yang memiliki distribusi penyewaan yang lebih rendah. Hal ini menunjukkan bahwa kondisi cuaca yang baik cenderung meningkatkan penggunaan sepeda, sementara kondisi cuaca yang buruk dapat mengurangi minat orang untuk menyewa sepeda.

Visualisasi 4: Scatter Plot

Scatter plot adalah grafik yang menunjukkan hubungan antara dua variabel numerik. Setiap titik pada scatter plot mewakili satu pengamatan, dengan posisi titik ditentukan oleh nilai kedua variabel. Berikut adalah contoh scatter plot untuk melihat pengaruh kecepatan angin terhadap jumlah penyewaan sepeda:

Scatter plot di atas menunjukkan hubungan antara kecepatan angin (windspeed) dan jumlah penyewaan sepeda (cnt). Setiap titik pada grafik mewakili satu hari, dengan posisi horizontal menunjukkan tingkat kecepatan angin dan posisi vertikal menunjukkan jumlah penyewaan sepeda pada hari tersebut. Dari visualisasi ini terlihat bahwa terdapat kecenderungan pola negatif yang lemah, di mana semakin tinggi kecepatan angin, jumlah penyewaan sepeda cenderung menurun. Hal ini mengindikasikan bahwa kondisi angin yang lebih kencang dapat membuat aktivitas bersepeda menjadi kurang nyaman sehingga permintaan penyewaan berkurang. Meskipun sebaran titik cukup bervariasi dan hubungan tidak terlalu kuat, pola umum tetap menunjukkan bahwa kecepatan angin memiliki pengaruh terhadap jumlah penyewaan sepeda.

Visualisasi 2: Boxplot Bivariat

Boxplot bivariate digunakan untuk membandingkan distribusi variabel numerik dalam kasus ini adalah Jumlah Penyewaan Sepeda (cnt) berdasarkan kategori dari variabel lain, yaitu Hari Kerja (workingday). Berikut adalah contoh kode untuk membuat boxplot bivariate antara cnt dan workingday:

Boxplot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) antara hari kerja (workingday = 1) dan bukan hari kerja (workingday = 0). Setiap kotak pada grafik merepresentasikan distribusi penyewaan sepeda pada masing-masing kategori, dengan garis di dalam kotak menunjukkan median, batas kotak menunjukkan kuartil pertama (Q1) dan kuartil ketiga (Q3), serta whisker yang menunjukkan rentang penyebaran data. Dari visualisasi ini terlihat bahwa median jumlah penyewaan pada hari kerja sedikit lebih tinggi dibandingkan non hari kerja, serta distribusinya juga relatif mirip meskipun variasi data cukup besar pada kedua kategori. Hal ini menunjukkan bahwa aktivitas penyewaan sepeda cenderung tetap tinggi baik pada hari kerja maupun bukan hari kerja, namun penggunaannya sedikit lebih dominan pada hari kerja, hal ini dapat disebabkan karena sepeda bisa dimanfaatkan sebagai sarana transportasi harian.

Visualisasi 3: Stacked Bar Chart

Stacked Bar Chart digunakan untuk menampilkan perbandingan antar vairabel kategorik sekaligus menunjukkan komposisi subkategori di dalam setiap kategori tersebut. Setiap batang merepresentasikan total suatu kelompok, sedangkan segmen berwarna di dalamnya menggambarkan kontribusi masing-masing subkategori terhadap total. Dengan demikian, grafik ini tidak hanya membantu melihat perbedaan besaran antar kelompok, tetapi juga memahami bagaimana distribusi atau proporsi kategori penyusunnya, sehingga cocok digunakan untuk analisis hubungan dua variabel kategorik. Berikut adalah contoh Stacked Bar Chart untuk melihat distribusi kondisi cuaca (weathersit) pada setiap musim (season):

Stacked bar chart di atas menunjukkan jumlah kondisi cuaca (weathersit) pada setiap musim (season). Setiap batang merepresentasikan total hari dalam satu musim, sedangkan bagian berwarna di dalam batang menunjukkan banyaknya hari dengan kondisi cuaca tertentu, yaitu cuaca cerah, berkabut, maupun hujan ringan. Dari visualisasi terlihat bahwa pada semua musim, kondisi cuaca cerah (weathersit = 1) mendominasi jumlah hari dibandingkan kondisi cuaca lainnya. Sementara itu, kondisi cuaca berkabut (weathersit = 2) muncul dalam jumlah yang lebih sedikit, dan cuaca hujan ringan (weathersit = 3) merupakan yang paling jarang terjadi. Selain itu, terdapat variasi jumlah total hari antar musim yang terlihat dari perbedaan tinggi batang. Hal ini menunjukkan bahwa secara umum kondisi cuaca cerah lebih sering terjadi di setiap musim, sehingga berpotensi mendukung aktivitas luar ruangan seperti penggunaan sepeda.

Kesimpulan

Secara keseluruhan, hasil eksplorasi visualisasi bivariat pada dataset penyewaan sepeda menunjukkan bahwa faktor lingkungan dan karakteristik waktu memiliki peran penting dalam membentuk pola permintaan penyewaan sepeda. Suhu menunjukkan hubungan positif dengan jumlah penyewaan, di mana peningkatan suhu cenderung diikuti peningkatan penggunaan sepeda, sedangkan suhu rendah berkaitan dengan penurunan minat penyewaan.

Dari sisi musim, tingkat penyewaan cenderung lebih tinggi pada musim yang lebih hangat dibandingkan musim yang lebih dingin, yang mengindikasikan bahwa kenyamanan cuaca mempengaruhi aktivitas bersepeda. Kondisi cuaca juga berpengaruh signifikan, di mana cuaca cerah meningkatkan penggunaan sepeda, sementara kondisi cuaca yang buruk seperti hujan menurunkan jumlah penyewaan. Distribusi cuaca yang didominasi kondisi cerah di berbagai musim turut mendukung tingginya aktivitas bersepeda secara umum.

Selain itu, kecepatan angin menunjukkan kecenderungan hubungan negatif dengan jumlah penyewaan, meskipun pengaruhnya tidak terlalu kuat, yang mengindikasikan bahwa angin kencang dapat mengurangi minat penggunaan sepeda. Dari aspek waktu, jumlah penyewaan relatif tinggi baik pada hari kerja maupun bukan hari kerja, dengan sedikit dominasi pada hari kerja, sehingga menunjukkan bahwa sepeda digunakan tidak hanya untuk rekreasi tetapi juga sebagai sarana mobilitas harian.

Dengan demikian, kombinasi faktor suhu, musim, kondisi cuaca, kecepatan angin, dan karakteristik hari berkontribusi terhadap variasi jumlah penyewaan sepeda. Temuan ini dapat menjadi dasar dalam perencanaan operasional dan strategi layanan sepeda yang lebih adaptif terhadap kondisi lingkungan dan pola aktivitas pengguna.