VISUALISASI DATA BIVARIATE

Bike Sharing Dataset

Atiqah Adawiyah Sholihah

Pendahuluan

Dataset yang digunakan dalam analisis ini merupakan data penyewaan sepeda harian (bike sharing) yang berasal dari sistem bike sharing di Washington, D.C. Dataset ini tersedia secara publik melalui UCI Machine Learning Repository dan dapat diakses di sini.

Dataset tersebut mencatat aktivitas penyewaan sepeda setiap hari selama periode dua tahun. Data ini memuat informasi mengenai kondisi lingkungan dan waktu, seperti musim (season), tahun (yr), bulan (mnth), kondisi cuaca (weathersit), suhu (temp), suhu terasa (atemp), kelembaban (hum), kecepatan angin (windspeed), serta jumlah total penyewaan sepeda per hari (cnt).

Sebagai layanan transportasi alternatif yang dipengaruhi oleh faktor eksternal, tingkat penyewaan sepeda sangat mungkin berubah sesuai kondisi cuaca dan karakteristik hari tertentu. Oleh karena itu, penting untuk memahami bagaimana variasi jumlah penyewaan terjadi dari hari ke hari, serta faktor apa saja yang berpotensi memengaruhinya.

Pada tahap awal analisis, fokus diberikan pada pemahaman karakteristik variabel numerik dalam dataset. Analis perlu menjawab pertanyaan seperti:

  1. Apakah tingkat kelembaban berpengaruh terhadap jumlah penyewaan sepeda?
  2. Apakah jumlah penyewaan sepeda berbeda antara hari kerja dan bukan hari kerja?
  3. Apakah distribusi kondisi cuaca berbeda antar musim?

Untuk menjawab pertanyaan tersebut, digunakan visualisasi bivariat untuk mengeksplorasi hubungan antarvariabel yang berpotensi menjelaskan perubahan jumlah penyewaan sepeda.

Deskripsi Data

No. Variabel Numerik Keterangan
1. temp suhu aktual (dinormalisasi dalam skala 0–1)
2. atemp suhu yang dirasakan (feeling temperature)
3. hum tingkat kelembaban udara
4. windspeed kecepatan angin
5. casual jumlah penyewaan sepeda oleh pengguna kasual
6. registered jumlah penyewaan sepeda oleh pengguna terdaftar
7. cnt total penyewaan sepeda (casual + registered)

Sedangkan variabel-variabel kategorik seperti season, yr, mnth, holiday, workingday, dan weathersit telah dilakukan proses recoding agar lebih mudah dipahami dalam visualisasi. Dengan mengganti kode numerik menjadi label deskriptif, interpretasi grafik menjadi lebih intuitif dan informatif bagi pembaca.

##  [1] "instant"    "dteday"     "season"     "yr"         "mnth"      
##  [6] "holiday"    "weekday"    "workingday" "weathersit" "temp"      
## [11] "atemp"      "hum"        "windspeed"  "casual"     "registered"
## [16] "cnt"

Visualisasi Data Kontinu (Bivariate)

Setelah memahami karakteristik masing-masing variabel secara individual, tahap berikutnya adalah melakukan visualisasi bivariat. Visualisasi bivariat digunakan untuk mengeksplorasi hubungan antara dua variabel, khususnya bagaimana jumlah penyewaan sepeda (cnt) dipengaruhi oleh faktor lain seperti suhu, kelembaban, musim, kondisi cuaca, dan jenis hari.

Melalui pendekatan ini, analisis tidak hanya berhenti pada pemahaman distribusi data, tetapi juga mulai mengidentifikasi pola hubungan, kecenderungan positif atau negatif, serta perbedaan distribusi antar kategori. Dengan demikian, visualisasi bivariat membantu memberikan gambaran yang lebih mendalam mengenai faktor-faktor yang berasosiasi dengan perubahan jumlah penyewaan sepeda dalam dataset.

1. Scatter Plot: Temperature vs Total Rentals

Pertanyaan:
Apakah suhu berpengaruh terhadap jumlah penyewaan sepeda?

Scatter plot di atas menunjukkan hubungan antara suhu (temp) dan jumlah penyewaan sepeda (cnt). Setiap titik pada grafik mewakili satu hari, dengan posisi horizontal menunjukkan suhu dan posisi vertikal menunjukkan jumlah penyewaan sepeda pada hari tersebut. Dari visualisasi ini terlihat bahwa terdapat pola positif antara suhu dan jumlah penyewaan sepeda, di mana semakin tinggi suhu, semakin banyak penyewaan sepeda yang terjadi. Hal ini menunjukkan bahwa cuaca yang lebih hangat cenderung meningkatkan penggunaan sepeda, sementara suhu yang lebih rendah mungkin membuat orang enggan untuk menyewa sepeda. Meskipun terdapat beberapa titik yang menyebar, pola umum menunjukkan bahwa suhu memiliki pengaruh positif terhadap jumlah penyewaan sepeda.

2. Boxplot Bivariate: Season vs Total Rentals

Pertanyaan:
Apakah musim berpengaruh terhadap jumlah penyewaan sepeda?

Boxplot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kategori musim (season). Setiap kotak pada grafik mewakili distribusi penyewaan sepeda untuk masing-masing musim, dengan garis di dalam kotak menunjukkan median, batas kotak menunjukkan kuartil pertama (Q1) dan kuartil ketiga (Q3), serta whisker yang memanjang menunjukkan rentang data. Dari visualisasi ini terlihat bahwa musim Summer memiliki jumlah penyewaan sepeda yang lebih tinggi dibandingkan dengan musim lainnya, dengan median yang berada di kisaran 5.000 penyewaan per hari. Sementara itu, musim Winter memiliki jumlah penyewaan yang lebih rendah, dengan median di bawah 3.000 penyewaan per hari. Hal ini menunjukkan bahwa penggunaan sepeda cenderung meningkat selama musim panas dan menurun selama musim dingin, kemungkinan karena faktor cuaca yang mempengaruhi kenyamanan dalam menggunakan sepeda.

3. Violin Plot Bivariate: Weather Condition vs Total Rentals

Pertanyaan:
Apakah kondisi cuaca berpengaruh terhadap jumlah penyewaan sepeda?

Violin plot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kondisi cuaca (weathersit). Setiap bentuk violin mewakili distribusi penyewaan sepeda untuk masing-masing kondisi cuaca, dengan bagian yang lebih lebar menunjukkan bahwa lebih banyak hari memiliki jumlah penyewaan pada kisaran tersebut. Boxplot di dalam violin memberikan informasi statistik ringkas, seperti median dan kuartil. Dari visualisasi ini terlihat bahwa kondisi cuaca yang cerah (Clear) memiliki distribusi penyewaan sepeda yang lebih tinggi dan lebih padat dibandingkan dengan kondisi cuaca lainnya, seperti hujan ringan (Light Rain) atau hujan deras (Heavy Rain), yang memiliki distribusi penyewaan yang lebih rendah. Hal ini menunjukkan bahwa kondisi cuaca yang baik cenderung meningkatkan penggunaan sepeda, sementara kondisi cuaca yang buruk dapat mengurangi minat orang untuk menyewa sepeda.

4. Scatter Plot: Humidity vs Total Rentals

Pertanyaan:
Apakah tingkat kelembaban berpengaruh terhadap jumlah penyewaan sepeda?

Scatter plot di atas menunjukkan hubungan antara tingkat kelembaban (hum) dan jumlah penyewaan sepeda (cnt). Setiap titik pada grafik mewakili satu hari pengamatan, dengan posisi horizontal menunjukkan tingkat kelembaban (yang telah dinormalisasi antara 0 hingga 1) dan posisi vertikal menunjukkan jumlah penyewaan sepeda pada hari tersebut.

Dari visualisasi terlihat adanya kecenderungan hubungan negatif antara kelembaban dan jumlah penyewaan sepeda. Pada tingkat kelembaban yang lebih rendah (sekitar 0.2–0.4), jumlah penyewaan sepeda cenderung berada pada kisaran 4.000 hingga 6.000 penyewaan per hari. Sebaliknya, ketika kelembaban meningkat mendekati 0.8–1.0, jumlah penyewaan cenderung menurun dan lebih banyak berada di bawah 3.000 penyewaan per hari.

Meskipun penyebaran titik masih cukup luas, pola umum menunjukkan bahwa kondisi udara yang terlalu lembab dapat mengurangi kenyamanan pengguna sepeda sehingga berdampak pada penurunan jumlah penyewaan

5. Stacked Bar: Season vs Weather Condition

Pertanyaan: Apakah distribusi kondisi cuaca berbeda antar musim?

Grafik batang bertumpuk di atas digunakan untuk melihat distribusi kondisi cuaca (weathersit) pada setiap musim (season). Setiap batang merepresentasikan satu musim, sedangkan warna yang berbeda dalam batang menunjukkan kategori kondisi cuaca, yaitu Clear, Cloudy, dan Light Rain. Tinggi masing-masing segmen warna menunjukkan jumlah hari dengan kondisi cuaca tersebut dalam musim tertentu.

Dari visualisasi terlihat bahwa distribusi kondisi cuaca memang berbeda antar musim. Musim Summer dan Fall cenderung memiliki proporsi hari dengan kondisi cuaca cerah (Clear) yang lebih dominan dibandingkan musim lainnya. Sebaliknya, musim Winter menunjukkan proporsi hari dengan kondisi berawan (Cloudy) atau hujan ringan (Light Rain) yang relatif lebih besar dibandingkan musim Summer.

Perbedaan proporsi ini menunjukkan bahwa karakteristik cuaca bersifat musiman dan tidak terdistribusi secara merata sepanjang tahun. Artinya, setiap musim memiliki pola cuaca yang khas. Hal ini penting dalam konteks analisis penyewaan sepeda, karena musim dengan proporsi cuaca cerah yang lebih tinggi berpotensi memiliki jumlah penyewaan sepeda yang lebih besar.

Dengan demikian, grafik ini menjawab pertanyaan bahwa distribusi kondisi cuaca memang berbeda antar musim. Variasi distribusi tersebut juga dapat menjadi salah satu faktor yang secara tidak langsung memengaruhi perbedaan jumlah penyewaan sepeda pada masing-masing musim.

6. Jitter Plot: Working Day vs Total Rentals

Pertanyaan: Apakah jumlah penyewaan sepeda berbeda antara hari kerja dan bukan hari kerja?

Grafik jitter menunjukkan perbedaan jumlah penyewaan sepeda antara hari kerja dan bukan hari kerja. Titik-titik pada hari kerja (Working Day = Yes) lebih banyak tersebar pada kisaran 4.000–6.000 penyewaan per hari, sedangkan pada hari bukan kerja (No), jumlah penyewaan cenderung lebih bervariasi dan sebagian besar berada di bawah 4.000. Hal ini menunjukkan bahwa sepeda kemungkinan lebih banyak digunakan sebagai sarana transportasi rutin pada hari kerja, sementara pada hari bukan kerja penggunaan sepeda lebih bersifat rekreasi dan tidak selalu tinggi.

Selain titik-titik biru yang menunjukkan data individu setiap hari, grafik juga menampilkan titik merah yang merepresentasikan nilai median jumlah penyewaan sepeda pada masing-masing kategori. Median dipilih sebagai ukuran pemusatan karena lebih robust terhadap pencilan dibandingkan rata-rata. Terlihat bahwa median jumlah penyewaan pada hari kerja (Working Day = Yes) lebih tinggi dibandingkan hari bukan kerja (No), yang mengindikasikan bahwa secara umum penggunaan sepeda lebih intensif pada hari kerja.

Kesimpulan

Berdasarkan visualisasi data bivariat pada Bike Sharing Dataset, terlihat bahwa jumlah penyewaan sepeda harian dipengaruhi oleh berbagai faktor lingkungan dan waktu. Suhu memiliki hubungan positif dengan jumlah penyewaan, sedangkan kelembaban menunjukkan kecenderungan hubungan negatif. Artinya, kondisi cuaca yang hangat dan tidak terlalu lembab cenderung meningkatkan penggunaan sepeda.

Selain itu, musim dan kondisi cuaca menunjukkan perbedaan yang cukup jelas terhadap tingkat penyewaan. Musim yang lebih hangat serta kondisi cuaca cerah menghasilkan jumlah penyewaan yang lebih tinggi dibandingkan musim dingin atau cuaca buruk. Distribusi kondisi cuaca yang berbeda pada setiap musim juga turut memengaruhi variasi jumlah penyewaan.

Perbedaan antara hari kerja dan bukan hari kerja juga terlihat, di mana jumlah penyewaan pada hari kerja cenderung lebih tinggi. Hal ini mengindikasikan bahwa sepeda tidak hanya digunakan untuk rekreasi, tetapi juga sebagai sarana transportasi rutin. Secara keseluruhan, analisis ini menunjukkan bahwa faktor cuaca dan karakteristik waktu memiliki peran penting dalam menentukan tingkat penggunaan layanan bike sharing