Dalam analisis data, visualisasi memegang peranan penting untuk memahami pola dan hubungan antar variabel. Setelah sebelumnya kita mempelajari visualisasi data kategori dan diskrit, sekarang kita akan fokus pada visualisasi data kontinu, khususnya untuk kasus bivariat (dua variabel). Data kontinu adalah data yang nilainya dapat mengambil sembarang angka dalam suatu rentang, seperti suhu, kelembaban, atau jumlah penyewaan sepeda.
Dataset yang digunakan dalam analisis ini adalah Bike Sharing Dataset yang bersumber dari UCI Machine Learning Repository. Dataset ini mencatat aktivitas penyewaan sepeda harian di Washington, D.C., selama periode dua tahun (2011-2012). Terdapat 731 observasi dan 16 variabel yang mencakup informasi cuaca, musim, hari libur, serta jumlah penyewaan.
Tujuan utama dari eksplorasi ini adalah untuk menjawab pertanyaan-pertanyaan seperti Faktor apa saja yang memengaruhi jumlah penyewaan sepeda? Bagaimana pola penyewaan sepanjang tahun? Apakah ada perbedaan perilaku antara pengguna casual dan registered?
Dengan visualisasi bivariat, kita dapat melihat hubungan antara dua variabel sekaligus, misalnya bagaimana suhu memengaruhi jumlah penyewaan, atau bagaimana perbandingan penyewaan di setiap musim.
Dataset ini terdiri dari variabel numerik dan kategorik. Variabel numerik yang menjadi fokus utama dalam visualisasi bivariat antara lain:
| No | Variabel | Keterangan |
|---|---|---|
| 1 | temp | Suhu udara dalam skala normalisasi |
| 2 | atemp | Suhu yang dirasakan (normalisasi) |
| 3 | hum | Tingkat kelembaban udara (normalisasi) |
| 4 | windspeed | Kecepatan angin (normalisasi) |
| 5 | casual | Jumlah penyewaan oleh pengguna tidak terdaftar |
| 6 | registered | Jumlah penyewaan oleh pengguna terdaftar |
| 7 | cnt | Total penyewaan (casual + registered) |
season (musim),
weathersit (kondisi cuaca), dan workingday
(hari kerja/libur) telah direkode agar lebih mudah diinterpretasikan
dalam visualisasi. Misalnya, nilai 1 pada variabel season
diubah menjadi “Spring”, 2 menjadi “Summer”, dan seterusnya. Hal ini
dilakukan agar grafik yang dihasilkan lebih komunikatif dan mudah
dipahami.
Pertanyaan Analitis: Apakah suhu memengaruhi jumlah penyewaan sepeda?
Scatter plot di atas memperlihatkan hubungan antara suhu
(temp) dan jumlah penyewaan sepeda (cnt).
Setiap titik mewakili satu hari pengamatan. Terlihat adanya pola
positif, di mana titik-titik cenderung bergerak naik ke kanan. Artinya,
semakin tinggi suhu, semakin banyak pula penyewaan sepeda yang terjadi.
Hal ini masuk akal karena cuaca yang hangat lebih nyaman untuk bersepeda
dibandingkan cuaca dingin.
Pertanyaan Analitis: Bagaimana distribusi jumlah penyewaan sepeda di setiap musim?
Boxplot ini membandingkan sebaran data penyewaan sepeda di empat musim. Kotak mewakili rentang antara kuartil pertama dan ketiga, dengan garis tengah sebagai median. Terlihat bahwa musim panas (Summer) memiliki median tertinggi, sekitar 5.000 penyewaan per hari, diikuti musim gugur (Fall) dan semi (Spring). Musim dingin (Winter) mencatatkan penyewaan terendah dengan median di bawah 3.000. Ini menunjukkan bahwa musim sangat berpengaruh terhadap minat masyarakat dalam menggunakan sepeda.
Pertanyaan Analitis: Bagaimana distribusi penyewaan sepeda berdasarkan kondisi cuaca?
Violin plot menggabungkan informasi boxplot dengan kepadatan distribusi. Lebar bentuk violin menunjukkan konsentrasi data pada nilai tertentu. Terlihat bahwa saat cuaca Clear (cerah), distribusi penyewaan cenderung tinggi dan padat di kisaran 4.000-7.000. Saat cuaca Cloudy (berkabut), penyewaan masih cukup tinggi namun dengan variasi lebih besar. Sedangkan saat Light Rain (hujan ringan), penyewaan turun drastis dengan sebagian besar hari hanya mencapai di bawah 2.500. Ini menegaskan bahwa cuaca buruk sangat mengurangi minat bersepeda.
Pertanyaan Analitis: Apakah kecepatan angin yang tinggi mengurangi minat masyarakat untuk menyewa sepeda?
Grafik ini menunjukkan hubungan antara kecepatan angin dan jumlah penyewaan. Garis smooth berwarna merah memperlihatkan tren menurun seiring bertambahnya kecepatan angin. Artinya, angin kencang cenderung mengurangi jumlah penyewaan sepeda. Area abu-abu di sekitar garis merah menunjukkan tingkat kepercayaan (confidence interval) dari tren tersebut. Temuan ini penting karena angin kencang dapat membahayakan pengendara sepeda dan mengurangi kenyamanan.
Pertanyaan Analitis: Bagaimana pola pengguna casual dibandingkan dengan pengguna registered sepanjang tahun?
Line plot ini membandingkan rata-rata penyewaan bulanan antara pengguna casual dan registered. Terlihat bahwa pengguna registered (Terdaftar) mendominasi sepanjang tahun dengan pola yang relatif stabil meskipun tetap mengikuti tren musiman. Sementara itu, pengguna casual (Tidak Terdaftar) menunjukkan lonjakan yang sangat tajam pada bulan Juni-Agustus. Hal ini mengindikasikan bahwa pengguna casual sebagian besar adalah wisatawan atau pengguna rekreasi yang memanfaatkan liburan musim panas, sedangkan pengguna registered adalah pengguna rutin seperti pekerja atau pelajar.
Pertanyaan Analitis: Bagaimana tren penyewaan sepeda per bulan dan perbandingan antara tahun 2011 dan 2012?
Grafik ini memperlihatkan tren penyewaan sepeda setiap bulan dengan perbandingan antara tahun 2011 dan 2012. Pola yang terbentuk sangat jelas: penyewaan meningkat drastis saat musim panas (Juni-Agustus) dan menurun saat musim dingin (Desember-Februari). Yang menarik, tahun 2012 secara konsisten lebih tinggi dibanding tahun 2011 di setiap bulan. Ini menunjukkan adanya peningkatan popularitas penggunaan sepeda dari tahun ke tahun. Puncak penyewaan terjadi di bulan Juli 2012 dengan rata-rata lebih dari 6.000 penyewaan per hari.
Dari keenam visualisasi bivariat yang telah dibuat, dapat ditarik beberapa kesimpulan penting: