Pendahuluan


Eksplorasi data merupakan tahap awal yang sangat penting dalam proses analisis data, karena melalui tahap ini peneliti dapat memahami karakteristik, pola, serta potensi hubungan yang terdapat didalam dataset. Sebelum saya melakukan analisis yang lebih kompleks seperti pemodelan atau pengujian statistik, perlunya pemahaman yang mendalam terhadap struktur dan perilaku data yang akan dianalisis. Visualisasi menjadi salah satu pendekatan yang cukup efektif dalam eksplorasi data karena bisa menyajikan informasi secara intuitif dan mudah diinterpretasikan.

Pada analisis kali ini, pendekatan yang saya digunakan adalah eksplorasi bivariat, yaitu analisis yang berfokus pada hubungan antara dua variabel dalam satu waktu. Analisis ini bertujuan untuk mengidentifikasi pola keterkaitan, perbedaan distribusi, maupun kecenderungan hubungan yang mungkin terjadi antar variabel. Dengan memahami hubungan antar dua variabel, peneliti dapat memperoleh insight awal yang menjadi dasar dalam pengambilan keputusan maupun pengembangan analisis lanjutan.

Dataset yang akan saya gunakan dalam eksplorasi kali ini merupakan data penyewaan sepeda harian yang memuat berbagai informasi terkait jumlah pengguna serta faktor waktu. Data ini menarik untuk dianalisis karena mencerminkan perilaku penggunaan layanan transportasi berbasis sepeda yang dapat dipengaruhi oleh berbagai faktor, seperti musim, kondisi lingkungan, maupun karakteristik pengguna itu sendiri. Maka dari itu eksplorasi bivariat dalam laporan ini difokuskan untuk memahami bagaimana variasi jumlah pengguna terjadi dan bagaimana hubungan antar tipe pengguna dapat dijelaskan melalui visualisasi data.

Melalui analisis ini diharapkan dapat diperoleh gambaran awal mengenai pola penggunaan sepeda, perbedaan karakteristik antar kelompok pengguna, serta indikasi hubungan yang dapat ditelusuri lebih lanjut melalui pendekatan statistik yang lebih mendalam.

Sebelum melakukan visualisasi, langkah awal yang saya lakukan adalah memahami struktur data dan karakteristik masing-masing variabelnya. Berdasarkan hasil pemeriksaan struktur data, variabel season bertipe kategorik yang merepresentasikan pembagian musim dalam satu tahun, sedangkan variabel casual dan registered bertipe numerik yang menunjukkan jumlah pengguna sepeda dalam satu hari.

Pemahaman terhadap tipe variabel sangat penting dalam eksplorasi data bivariat karena akan menentukan jenis visualisasi yang akan digunakan. Kombinasi variabel kategorik dan numerik biasanya divisualisasikan menggunakan grafik distribusi seperti boxplot atau violin plot, sedangkan kombinasi dua variabel numerik lebih tepat menggunakan scatter plot untuk melihat pola hubungan dan kecenderungan linearitas. Dengan dasar tersebut, analisis berikut dilakukan secara sistematis untuk menjawab pertanyaan analitis yang telah dirumuskan.

Pada analisis pertama ini kita akan fokus pada pertanyaan: Pada musim apa jumlah pengguna kasual paling tinggi dan bagaimana variasinya?

Pertanyaan ini penting karena pengguna kasual diduga lebih sensitif terhadap perubahan musim dibandingkan pengguna terdaftar. Sebagai pengguna non-rutin, keputusan mereka untuk menyewa sepeda kemungkinan besar dipengaruhi oleh faktor kenyamanan cuaca sertra kondisi lingkungannya. Oleh karena itu, eksplorasi ini bertujuan untuk melihat apakah terdapat perbedaan distribusi jumlah pengguna kasual di setiap musim.

Karena variabel season bersifat kategorik dan casual bersifat numerik, maka digunakan boxplot. Boxplot memungkinkan kita untuk melihat median, sebaran data, serta potensi outlier pada setiap musim, sehingga dapat memberikan gambaran yang lebih mendalam mengenai variasi jumlah pengguna kasual.

ggplot(bike_data, aes(x = factor(season),
                y = casual,
                fill = factor(season))) +
  geom_boxplot(alpha = 0.7) +
  scale_fill_brewer(palette = "Set2") +
  labs(title = "Distribusi Pengguna Kasual Berdasarkan Musim",
       x = "Musim",
       y = "Jumlah Pengguna Kasual") +
  theme_minimal()

Berdasarkan boxplot yang dihasilkan, dapat kita liat bahwa terdapat perbedaan distribusi jumlah pengguna kasual pada setiap musim. Musim Fall menunjukkan median jumlah pengguna kasual yang paling tinggi dibandingkan musim lainnya, diikuti oleh Summer. Hal ini menunjukkan bahwa pada musim tersebut aktivitas penggunaan sepeda oleh pengguna kasual cenderung lebih intensif. Selain nilai median yang tinggi, musim Fall dan Summer juga memiliki rentang interkuartil (IQR) yang relatif lebar. Ini berarti variasi jumlah pengguna kasual pada kedua musim tersebut cukup besar. Dengan kata lain, selain jumlah pengguna yang tinggi, fluktuasi pengguna kasual juga lebih beragam pada musim-musim tersebut. Kondisi ini kemungkinan dipengaruhi oleh cuaca yang lebih nyaman serta meningkatnya aktivitas luar ruangan.

Sebaliknya, musim Spring menunjukkan median yang paling rendah dengan sebaran yang relatif lebih sempit dibandingkan musim lainnya. Hal ini menjelaskan bahwa pada musim tersebut jumlah pengguna kasual cenderung lebih sedikit dan lebih stabil pada kisaran tertentu. Sedangkan pada musim Winter juga menunjukkan jumlah pengguna yang relatif lebih rendah dibandingkan Fall dan Summer, meskipun masih lebih tinggi dibandingkan musim Spring.Pada masing masing musim dapat kita lihat terdapat beberapa titik outlier, terutama pada Fall dan Summer. Outlier ini menunjukkan adanya hari-hari tertentu dengan lonjakan pengguna kasual yang sangat tinggi dibandingkan hari-hari biasa. Lonjakan ini kemungkinan terjadi pada hari libur, akhir pekan, atau kondisi cuaca yang sangat mendukung aktivitas bersepeda.

Secara keseluruhan, visualisasi ini menunjukkan bahwa faktor musim berpengaruh terhadap jumlah pengguna kasual. Musim dengan kondisi cuaca yang lebih nyaman seperti Fall dan Summer cenderung meningkatkan penggunaan sepeda oleh pengguna kasual, sedangkan musim dengan kondisi yang kurang mendukung menunjukkan jumlah pengguna yang lebih rendah.

Selanjutnya untuk analisis kedua bertujuan untuk menjawab pertanyaan: Apakah pengguna terdaftar memiliki pola penggunaan yang lebih konsisten di semua musim?

Pengguna terdaftar biasanya menggunakan sepeda sebagai sarana transportasi rutin berbeda dengan pengguna kasual. Maka dari itu diasumsikan bahwa jumlah pengguna terdaftar tidak terlalu berubah akibat perubahan musim. Untuk mengevaluasi hal tersebut, maka dilakukanlah visualisasi antara variabel season dan registered. Karena kombinasi variabel ini juga terdiri dari kategorik dan numerik, maka saya menggunakan violin plot. Grafik ini saya pilih karena mampu menampilkan distribusi kepadatan data secara lebih detail dibandingkan boxplot, sehingga kita dapat melihat konsentrasi nilai pada masing-masing musim.

ggplot(bike_data, aes(x = factor(season),
                y = registered,
                fill = factor(season))) +
  geom_violin(trim = FALSE, alpha = 0.6) +
  geom_boxplot(width = 0.15,
               color = "black",
               alpha = 0.7,
               outlier.shape = NA) +
  scale_fill_brewer(palette = "Set2") +
  labs(title = "Distribusi Pengguna Terdaftar Berdasarkan Musim",
       x = "Musim",
       y = "Jumlah Pengguna Terdaftar",
       fill = "Musim") +
  theme_minimal()

Berdasarkan visualisasi violin plot dan dilengkapi dengan boxplot di bagian tengah yang sudah didapat, dapat kita lihat bahwa jumlah pengguna terdaftar memiliki pola distribusi yang relatif stabil di setiap musim, meskipun tetap terdapat perbedaan tingkat penggunaan antar musim. Keberadaan boxplot di dalam violin membantu memperjelas posisi median, rentang interkuartil (IQR), serta sebaran data secara lebih terstruktur. Musim Fall memperlihatkan bahwa median jumlah pengguna terdaftar yang cukup tinggi dibandingkan musim lainnya. Rentang interkuartilnya juga cukup lebar. Kepadatan distribusi pada kisaran 3.500 hingga mendekati 6.000 pengguna menunjukkan bahwa pada musim ini jumlah pengguna terdaftar cenderung konsisten berada pada tingkat menengah hingga tinggi.

Musim Summer juga memperlihatkan pola yang hampir serupa dengan Fall, dengan median yang relatif tinggi dan distribusi yang cukup lebar. Hal ini mengindikasikan bahwa pada musim dengan kondisi cuaca yang lebih nyaman, penggunaan oleh pengguna terdaftar tetap tinggi, meskipun tidak menunjukkan lonjakan ekstrem seperti pada pengguna kasual. Sedangkan musim Winter menunjukkan median yang sedikit lebih rendah dibandingkan Fall dan Summer, namun tetap berada pada kisaran yang cukup tinggi. Distribusi pada musim winter masih menunjukkan kepadatan pada nilai menengah, yang berarti pengguna terdaftar tetap aktif menggunakan sepeda meskipun kondisi musim kurang mendukung. Hal ini menguatkan asumsi bahwa pengguna terdaftar memiliki kebutuhan mobilitas yang lebih rutin.

Berbeda dengan musim musim yang lain, Spring menunjukkan median jumlah pengguna terdaftar yang paling rendah. Rentang interkuartilnya juga lebih sempit dibandingkan Fall dan Summer, serta kepadatan data lebih terkonsentrasi pada kisaran 1.500 hingga 3.000 pengguna. Tetapi penurunan ini tidak bersifat ekstrem, yang memperlihatkan bahwa penggunaan tetap berlangsung secara relatif stabil. Secara menyeluruh, visualisasi ini menunjukkan bahwa pengguna terdaftar memiliki pola penggunaan yang lebih konsisten dibandingkan pengguna kasual. Perbedaan antar musim memang ada, tetapi tidak menunjukkan fluktuasi yang sangat drastis. Hal ini memperlihatkan bahwa faktor musim memengaruhi pengguna terdaftar, namun pengaruhnya tidak sebesar pada pengguna kasual. Pengguna terdaftar cenderung menggunakan sepeda sebagai kebutuhan rutin, sehingga tingkat penggunaannya lebih stabil sepanjang tahun dibandingkan pengguna kasual.

Pada analisis ketiga ini kita akan berfokus pada pertanyaan:Apakah terdapat hubungan antara jumlah pengguna kasual dan pengguna terdaftar dalam satu hari?

Untuk menjawab pertanyaan pada analisis ini, saya menggunakan scatter plot karena kedua variabel (casual dan registered) bersifat numerik. Scatter plot memungkinkan kita untuk melihat pola hubungan secara langsung serta mampu mengidentifikasi apakah terdapat kecenderungan hubungan linear. Lalu akan ditambahkan garis regresi linear untuk membantu melihat arah dan kecenderungan hubungan secara umum.

ggplot(bike_data, aes(x = casual, y = registered)) +
  geom_point(alpha = 0.6, color = "lightblue") +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  labs(title = "Hubungan Pengguna Kasual dan Terdaftar",
       x = "Jumlah Pengguna Kasual",
       y = "Jumlah Pengguna Terdaftar") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Berdasarkan scatter plot yang dihasilkankan, dapat kita lihat terdapat pola hubungan positif antara jumlah pengguna kasual dan jumlah pengguna terdaftar dalam satu hari. Titik-titik data cenderung membentuk pola yang naik dari kiri bawah ke kanan atas, yang diperkuat oleh garis regresi linear berwarna merah dengan kemiringan positif. Hal ini menunjukkan bahwa ketika jumlah pengguna kasual meningkat, jumlah pengguna terdaftar juga cenderung akan meningkat. Sebaran titik data terlihat cukup menyebar di sekitar garis regresi yang berarti, hubungan antara kedua variabel tidak sepenuhnya sempurna, akan tetapi tetap menunjukkan kecenderungan linear yang jelas. Variasi ini menjeleskan bahwa selain jumlah pengguna kasual juga terdapat faktor lain yang mempengaruhi jumlah pengguna terdaftar, seperti kondisi cuaca, hari kerja atau akhir pekan, ataupun faktor musiman.

Lalu juga terlihat pada kisaran pengguna kasual yang rendah, jumlah pengguna terdaftar masih dapat berada pada tingkat yang cukup tinggi. Hal ini menerangkan bahwa pengguna terdaftar memiliki pola penggunaan yang relatif stabil dan tidak sepenuhnya bergantung pada jumlah pengguna kasual. Namun ketika jumlah pengguna kasual mencapai nilai tinggi, jumlah pengguna terdaftar juga cenderung meningkat, yang menunjukkan adanya faktor eksternal yang mendorong peningkatan penggunaan sepeda secara keseluruhan. dari hasil Visualisasi ini menunjukkan adanya hubungan linear positif antara pengguna kasual dan pengguna terdaftar. Peningkatan penggunaan yang terjadi pada satu kelompok cenderung diikuti oleh peningkatan pada kelompok lainnya, yang mengindikasikan bahwa kondisi yang mendukung aktivitas bersepeda akan berdampak pada seluruh segmen pengguna, bukan hanya satu kategori saja.

Dari hasil eksplorasi data bivariat yang telah kita lakukan maka dapat kuta simpulkan bahwa musim memiliki pengaruh yang lebih signifikan terhadap pengguna kasual dibandingkan pengguna terdaftar. Pengguna kasual menunjukkan peningkatan yang cukup besar pada musim Summer dan Fall serta penurunan yang signifikan pada musim Winter. Sebaliknya, pengguna terdaftar menunjukkan pola yang lebih stabil di seluruh musim, yang mencerminkan penggunaan yang bersifat rutin. Juga terdapat hubungan positif antara jumlah pengguna kasual dan pengguna terdaftar dalam satu hari. Hal ini menunjukkan bahwa faktor eksternal tertentu memengaruhi kedua kelompok pengguna secara simultan. Temuan ini dapat memberikan pemahaman yang lebih mendalam mengenai perilaku penggunaan sepeda dan dapat menjadi dasar untuk analisis lanjutan seperti pengujian korelasi statistik atau pembangunan model prediksi jumlah penyewaan sepeda.