Dataset ini berasal dari sistem bike sharing di Washington, D.C., yang diperoleh dari UCI Machine Learning Repository yang dapat di akses melalui link ini. Dataset ini mencatat aktivitas penyewaan sepeda setiap hari selama dua tahun. Setelah memahami dalam kondisi apa data dikumpulkan (musim, cuaca, dan jenis hari), langkah berikutnya adalah melihat bagaimana perilaku nilai numerik dalam dataset.
Pada tahap ini analis mulai bertanya:
Seberapa besar variasi jumlah penyewaan sepeda dari hari ke hari? Apakah nilainya stabil, menyebar, atau memiliki lonjakan tertentu?
Untuk menjawab pertanyaan tersebut digunakan visualisasi univariate kontinu, yaitu visualisasi yang berfokus pada satu variabel numerik dalam satu waktu. Visualisasi ini membantu kita memahami distribusi data, mengidentifikasi pola, dan mendeteksi outlier. Dengan menggunakan visualisasi univariate kontinu, kita dapat melihat bagaimana nilai numerik dalam dataset bervariasi dari hari ke hari, apakah nilainya stabil, menyebar, atau memiliki lonjakan tertentu. Informasi ini dapat memberikan wawasan yang lebih dalam tentang pola penggunaan sepeda dalam dataset dan membantu dalam perencanaan layanan sepeda yang lebih efektif.
Import data dari file CSV ke dalam R menggunakan fungsi read.csv(). Pastikan untuk menyesuaikan path file dengan lokasi di mana dataset disimpan di komputer Anda. Berikut adalah kode untuk memuat data:
# Load data
bike_data <- read.csv("bike_sharing_dataset_by-day.csv")
colnames(bike_data)
## [1] "instant" "dteday" "season" "yr" "mnth"
## [6] "holiday" "weekday" "workingday" "weathersit" "temp"
## [11] "atemp" "hum" "windspeed" "casual" "registered"
## [16] "cnt"
Berdasarkan output di atas, dataset ini memiliki 16 variabel, termasuk variabel numerik dan kategorik. Variabel numerik dalam dataset ini termasuk temp, atemp, hum, windspeed, casual, registered, dan cnt. Variabel-variabel ini memberikan informasi tentang suhu, kelembapan, kecepatan angin, jumlah penyewaan sepeda oleh pengguna kasual, jumlah penyewaan sepeda oleh pengguna terdaftar, dan total jumlah penyewaan sepeda.
| No. | Variabel Numerik | Keterangan |
|---|---|---|
| 1 | temp | suhu dalam skala Celsius |
| 2 | atemp | suhu yang dirasakan |
| 3 | hum | kelembapan |
| 4 | windspeed | kecepatan angin |
| 5 | casual | jumlah penyewaan sepeda oleh pengguna kasual |
| 6 | registered | jumlah penyewaan sepeda oleh pengguna terdaftar |
| 7 | cnt | total jumlah penyewaan sepeda (casual+ registered) |
Sedangkan variabel-variabel kategorik sudah dijelaskan pembelajaran sebelumnya, variabel-variabel kategorik seperti season, weathersit, dan workingday di-recode untuk memudahkan dalam interpretasi visualisasi dan analisis selanjutnya.
Dengan melakukan recode pada variabel-variabel kategorik, kita dapat lebih mudah memahami dan menginterpretasikan visualisasi yang akan dibuat selanjutnya. Misalnya, ketika kita membuat grafik yang menunjukkan jumlah penyewaan sepeda berdasarkan musim, kita dapat langsung melihat label “Spring”, “Summer”, “Fall”, dan “Winter” daripada harus mengingat bahwa 1 = Spring, 2 = Summer, dan seterusnya. Hal ini membuat visualisasi lebih intuitif dan mudah dipahami oleh audiens.
Struktur data setelah recode akan tetap sama, tetapi nilai-nilai dalam variabel season, weathersit, dan workingday sekarang memiliki label yang lebih deskriptif. Ini akan memudahkan kita dalam membuat visualisasi yang lebih informatif dan mudah dipahami.
Setelah memahami pola distribusi satu variabel, analisis dapat dilanjutkan ke tahap berikutnya, yaitu visualisasi bivariate. Visualisasi bivariate digunakan untuk melihat hubungan antara dua variabel, misalnya bagaimana jumlah penyewaan sepeda (cnt) dipengaruhi oleh faktor lain seperti musim (season), kondisi cuaca (weathersit), suhu (temp), atau jenis hari (workingday). Pendekatan ini memungkinkan analis tidak hanya memahami bagaimana data tersebar, tetapi juga mulai mengeksplorasi faktor-faktor yang berasosiasi dengan perubahan jumlah penyewaan sepeda.
Dengan demikian, visualisasi univariate memberikan pemahaman awal mengenai karakteristik dan variasi data, sedangkan visualisasi bivariate membantu menggali hubungan antarvariabel yang dapat menjelaskan pola penggunaan sepeda secara lebih mendalam. Berikut adalah beberapa jenis visualisasi bivariate yang dapat digunakan untuk menganalisis hubungan antara jumlah penyewaan sepeda (cnt) dengan variabel lain dalam dataset:Scatter plot adalah grafik yang menunjukkan hubungan antara dua variabel numerik. Setiap titik pada scatter plot mewakili satu pengamatan, dengan posisi titik ditentukan oleh nilai kedua variabel. Berikut adalah contoh kode untuk membuat scatter plot antara cnt dan temp:
Scatter plot di atas menunjukkan hubungan antara suhu (temp) dan jumlah penyewaan sepeda (cnt). Setiap titik pada grafik mewakili satu hari, dengan posisi horizontal menunjukkan suhu dan posisi vertikal menunjukkan jumlah penyewaan sepeda pada hari tersebut. Dari visualisasi ini terlihat bahwa terdapat pola positif antara suhu dan jumlah penyewaan sepeda, di mana semakin tinggi suhu, semakin banyak penyewaan sepeda yang terjadi. Hal ini menunjukkan bahwa cuaca yang lebih hangat cenderung meningkatkan penggunaan sepeda, sementara suhu yang lebih rendah mungkin membuat orang enggan untuk menyewa sepeda. Meskipun terdapat beberapa titik yang menyebar, pola umum menunjukkan bahwa suhu memiliki pengaruh positif terhadap jumlah penyewaan sepeda.:
Boxplot bivariate digunakan untuk membandingkan distribusi variabel numerik (cnt) berdasarkan kategori dari variabel lain, seperti musim (season). Berikut adalah contoh kode untuk membuat boxplot bivariate antara cnt dan season:
Boxplot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kategori musim (season). Setiap kotak pada grafik mewakili distribusi penyewaan sepeda untuk masing-masing musim, dengan garis di dalam kotak menunjukkan median, batas kotak menunjukkan kuartil pertama (Q1) dan kuartil ketiga (Q3), serta whisker yang memanjang menunjukkan rentang data. Dari visualisasi ini terlihat bahwa musim Summer memiliki jumlah penyewaan sepeda yang lebih tinggi dibandingkan dengan musim lainnya, dengan median yang berada di kisaran 5.000 penyewaan per hari. Sementara itu, musim Winter memiliki jumlah penyewaan yang lebih rendah, dengan median di bawah 3.000 penyewaan per hari. Hal ini menunjukkan bahwa penggunaan sepeda cenderung meningkat selama musim panas dan menurun selama musim dingin, kemungkinan karena faktor cuaca yang mempengaruhi kenyamanan dalam menggunakan sepeda.
Violin plot bivariate digunakan untuk membandingkan distribusi variabel numerik (cnt) berdasarkan kategori dari variabel lain, seperti kondisi cuaca (weathersit). Berikut adalah contoh kode untuk membuat violin plot bivariate antara cnt dan weathersit:
Violin plot bivariate di atas digunakan untuk membandingkan distribusi jumlah penyewaan sepeda (cnt) berdasarkan kondisi cuaca (weathersit). Setiap bentuk violin mewakili distribusi penyewaan sepeda untuk masing-masing kondisi cuaca, dengan bagian yang lebih lebar menunjukkan bahwa lebih banyak hari memiliki jumlah penyewaan pada kisaran tersebut. Boxplot di dalam violin memberikan informasi statistik ringkas, seperti median dan kuartil. Dari visualisasi ini terlihat bahwa kondisi cuaca yang cerah (Clear) memiliki distribusi penyewaan sepeda yang lebih tinggi dan lebih padat dibandingkan dengan kondisi cuaca lainnya, seperti hujan ringan (Light Rain) atau hujan deras (Heavy Rain), yang memiliki distribusi penyewaan yang lebih rendah. Hal ini menunjukkan bahwa kondisi cuaca yang baik cenderung meningkatkan penggunaan sepeda, sementara kondisi cuaca yang buruk dapat mengurangi minat orang untuk menyewa sepeda.
Pada bagian ini, analisis diperluas dengan membuat tiga visualisasi bivariat tambahan menggunakan pasangan variabel yang berbeda dari sebelumnya. Setiap visualisasi dirancang untuk menjawab pertanyaan analitis tertentu sehingga analisis tidak hanya bersifat deskriptif, tetapi juga eksploratif.
Tipe Variabel:
weathersit → Kategorik (4 kategori kondisi
cuaca)
cnt → Numerik
Sehingga termasuk analisis Kategorik vs
Numerik.
Pemilihan Grafik: Digunakan boxplot karena memungkinkan perbandingan distribusi, median, dan sebaran jumlah penyewaan antar beberapa kategori cuaca.
Interpretasi: Grafik boxplot tersebut menunjukkan bahwa kondisi cuaca berpengaruh terhadap jumlah total penyewaan sepeda. Secara umum, semakin baik cuaca, semakin tinggi jumlah rental yang terjadi. Hal ini terlihat dari perbedaan median dan sebaran data pada masing-masing kondisi cuaca. Pada cuaca cerah (Clear), jumlah penyewaan paling tinggi dengan median sekitar 4.800–5.000. Selain itu, variasi datanya juga cukup besar, yang menunjukkan bahwa pada hari-hari tertentu jumlah rental bisa meningkat sangat tinggi. Ini menandakan bahwa cuaca cerah sangat mendukung aktivitas bersepeda.
Pada cuaca berawan (Cloudy), jumlah penyewaan sedikit lebih rendah dibandingkan cerah, dengan median sekitar 4.000. Meskipun menurun, jumlah rental masih tergolong tinggi, sehingga cuaca berawan masih cukup mendukung penyewaan sepeda. Sementara itu, pada kondisi hujan ringan (Light Rain), jumlah penyewaan menurun cukup signifikan dengan median sekitar 1.800–2.000. Hal ini menunjukkan bahwa hujan membuat masyarakat cenderung mengurangi aktivitas bersepeda. Secara keseluruhan, dapat disimpulkan bahwa cuaca memiliki pengaruh yang jelas terhadap total penyewaan sepeda, di mana kondisi cerah menghasilkan rental tertinggi dan hujan ringan menghasilkan rental terendah.
Tipe Variabel:
workingday → Kategorik (0 = Libur, 1 = Hari
Kerja)
cnt → Numerik
Sehingga termasuk analisis Kategorik vs
Numerik.
Pemilihan Grafik: Digunakan violin plot karena selain membandingkan median, grafik ini juga menampilkan bentuk distribusi dan kepadatan data pada masing-masing kategori. Hal ini memberikan informasi lebih lengkap dibandingkan boxplot.
Interpretasi: Grafik violin plot tersebut menunjukkan distribusi jumlah total penyewaan sepeda (cnt) antara hari libur (0) dan hari kerja (1). Bentuk violin memperlihatkan kepadatan data, sedangkan boxplot di bagian tengah menunjukkan median dan rentang kuartil. Secara umum, terlihat bahwa jumlah penyewaan pada hari kerja cenderung sedikit lebih tinggi dibandingkan hari libur, meskipun perbedaannya tidak terlalu ekstrem.
Pada hari libur (0), median jumlah penyewaan berada di kisaran sekitar 4.400–4.500. Sebaran datanya cukup lebar, yang berarti jumlah rental pada hari libur bisa sangat rendah di beberapa hari, tetapi juga bisa cukup tinggi di hari lainnya. Kepadatan data terbesar berada pada kisaran menengah, sekitar 3.000 hingga 6.000 penyewaan, yang menunjukkan aktivitas bersepeda pada hari libur cukup stabil dan kemungkinan digunakan untuk rekreasi.
Sementara itu, pada hari kerja (1), median penyewaan sedikit lebih tinggi, sekitar 4.600–4.700, dengan sebaran yang juga luas. Kepadatan data pada kisaran menengah hingga atas menunjukkan bahwa sepeda banyak digunakan untuk kebutuhan transportasi seperti bekerja atau sekolah. Secara keseluruhan, baik hari kerja maupun hari libur memiliki jumlah penyewaan yang tinggi, namun hari kerja sedikit lebih dominan. Hal ini mengindikasikan bahwa status hari memengaruhi total penyewaan sepeda, meskipun pengaruhnya tidak terlalu besar dibandingkan faktor lain seperti cuaca.
Tipe Variabel:
windspeed → Numerik
cnt → Numerik
Sehingga termasuk analisis Numerik vs Numerik.
Pemilihan Grafik: Digunakan scatter plot karena kedua variabel bersifat numerik. Garis regresi ditambahkan untuk melihat kecenderungan hubungan linear antara kecepatan angin dan jumlah penyewaan.
Interpretasi: Grafik scatter plot tersebut menunjukkan hubungan antara kecepatan angin (windspeed) dan jumlah total penyewaan sepeda (cnt). Setiap titik merepresentasikan satu hari pengamatan, sedangkan garis tren menunjukkan arah hubungan antara kedua variabel. Secara umum, terlihat adanya hubungan negatif, di mana semakin tinggi kecepatan angin, jumlah penyewaan sepeda cenderung menurun.
Pada saat kecepatan angin rendah, jumlah rental banyak berada pada kisaran tinggi dan bahkan dapat melebihi 7.000 penyewaan. Sebaliknya, ketika kecepatan angin meningkat, jumlah rental lebih sering berada pada kisaran yang lebih rendah. Namun, titik-titik data terlihat cukup menyebar dan tidak terlalu rapat di sekitar garis tren, yang menunjukkan bahwa hubungan tersebut tidak terlalu kuat.
Secara keseluruhan, dapat disimpulkan bahwa kecepatan angin memiliki pengaruh terhadap jumlah penyewaan sepeda, di mana angin yang lebih kencang cenderung menurunkan jumlah rental. Meski demikian, pengaruhnya tidak dominan karena masih terdapat faktor lain seperti cuaca, suhu, dan status hari yang turut memengaruhi total penyewaan sepeda.
Tipe Variabel:
temp → Numerik
casual → Numerik
registered → Numerik
Sehingga termasuk analisis Numerik vs Numerik.
Pemilihan Grafik: Digunakan scatter plot karena kedua variabel bersifat numerik. Scatter plot memungkinkan visualisasi arah dan kekuatan hubungan antara suhu dengan jumlah pengguna.
Interpretasi: Grafik scatter plot tersebut menunjukkan hubungan antara suhu (temperature/temp) dengan jumlah pengguna sepeda yang dibedakan menjadi dua kelompok, yaitu casual users dan registered users. Setiap titik merepresentasikan jumlah pengguna pada kondisi suhu tertentu, sedangkan garis tren menunjukkan arah hubungan antara suhu dan jumlah pengguna. Secara umum, terlihat adanya hubungan positif, di mana semakin tinggi suhu, jumlah pengguna sepeda cenderung meningkat.
Pada pengguna casual, garis tren yang menanjak menunjukkan bahwa ketika suhu rendah jumlah pengguna relatif sedikit, namun meningkat secara konsisten seiring kenaikan suhu. Hal ini mengindikasikan bahwa pengguna casual lebih aktif bersepeda saat cuaca hangat, kemungkinan untuk rekreasi atau aktivitas santai. Sementara itu, pada registered users terlihat pola yang sama tetapi dengan jumlah yang jauh lebih tinggi. Titik-titik data juga tampak lebih padat pada nilai besar, menunjukkan bahwa kelompok ini merupakan penyumbang utama total penyewaan sepeda.
Secara keseluruhan, suhu merupakan faktor penting yang memengaruhi jumlah pengguna sepeda. Semakin tinggi suhu, semakin besar jumlah pengguna, baik casual maupun registered. Namun, pengaruh suhu terhadap registered users terlihat lebih kuat karena jumlahnya lebih besar dan peningkatannya lebih konsisten dibandingkan casual users.
Berdasarkan hasil visualisasi bivariate yang telah dilakukan, dapat disimpulkan bahwa beberapa variabel memiliki hubungan yang jelas dengan jumlah penyewaan sepeda (cnt).
Secara keseluruhan, faktor lingkungan seperti suhu, musim, kondisi cuaca, dan kecepatan angin terbukti memengaruhi pola penggunaan sepeda. Variabel suhu dan kondisi cuaca menjadi faktor yang paling konsisten menunjukkan pengaruh terhadap peningkatan maupun penurunan jumlah penyewaan sepeda.