Variabel kontinu adalah variabel kuantitatif (variabel numerik) yang nilainya diperoleh melalui proses pengukuran dan dapat mengambil setiap nilai dalam suatu rentang tertentu, termasuk nilai desimal atau pecahan. Variabel ini memiliki jumlah kemungkinan nilai yang tidak terbatas dalam intervalnya. Artinya, nilainya tidak terbatas pada bilangan bulat saja.

Penjelasan Dataset

Dataset ini berasal dari sistem bike sharing di Washington, D.C., yang diperoleh dari UCI Machine Learning Repository. Dataset ini mencatat aktivitas penyewaan sepeda setiap hari selama dua tahun. Setelah memahami dalam kondisi apa data dikumpulkan (musim, cuaca, dan jenis hari), langkah berikutnya adalah melihat bagaimana perilaku nilai numerik dalam dataset.

Dataset Bike

library(readxl)
bike_data <- read_excel("C:/Users/Lenovo/Downloads/Dataset Bike Day .xlsx")
colnames(bike_data)
##  [1] "instant"    "dteday"     "season"     "yr"         "mnth"      
##  [6] "holiday"    "weekday"    "workingday" "weathersit" "temp"      
## [11] "atemp"      "hum"        "windspeed"  "casual"     "registered"
## [16] "cnt"

Melihat struktur data

str(bike_data)
## tibble [731 × 16] (S3: tbl_df/tbl/data.frame)
##  $ instant   : num [1:731] 1 2 3 4 5 6 7 8 9 10 ...
##  $ dteday    : chr [1:731] "2011-01-01" "2011-01-02" "2011-01-03" "2011-01-04" ...
##  $ season    : num [1:731] 1 1 1 1 1 1 1 1 1 1 ...
##  $ yr        : num [1:731] 0 0 0 0 0 0 0 0 0 0 ...
##  $ mnth      : num [1:731] 1 1 1 1 1 1 1 1 1 1 ...
##  $ holiday   : num [1:731] 0 0 0 0 0 0 0 0 0 0 ...
##  $ weekday   : num [1:731] 6 0 1 2 3 4 5 6 0 1 ...
##  $ workingday: num [1:731] 0 0 1 1 1 1 1 0 0 1 ...
##  $ weathersit: num [1:731] 2 2 1 1 1 1 2 2 1 1 ...
##  $ temp      : num [1:731] 0.344 0.363 0.196 0.2 0.227 ...
##  $ atemp     : num [1:731] 0.364 0.354 0.189 0.212 0.229 ...
##  $ hum       : num [1:731] 0.806 0.696 0.437 0.59 0.437 ...
##  $ windspeed : num [1:731] 0.16 0.249 0.248 0.16 0.187 ...
##  $ casual    : num [1:731] 331 131 120 108 82 88 148 68 54 41 ...
##  $ registered: num [1:731] 654 670 1229 1454 1518 ...
##  $ cnt       : num [1:731] 985 801 1349 1562 1600 ...

Dalam dataset penyewaan sepeda tersebut memiliki 731 observasi dan 16 variabel (kolom), termasuk variabel numerik dan kategori (yang didalam dataset menggunakan kode numerik). Variabel numerik dalam dataset ini termasuk temp, atemp, hum, windspeed, casual, registered, dan cnt.Variabel-variabel ini memberikan informasi tentang suhu, kelembapan, kecepatan angin, jumlah penyewaan sepeda oleh pengguna kasual, jumlah penyewaan sepeda oleh pengguna terdaftar, dan total jumlah penyewaan sepeda.Sedangkan variabel-variabel kategorik seperti season, weathersit, dan workingday, yr,mnth,weekday menggunakan numerik pada dataset tersebut.

Visualisasi Data kontinu (Bivariate)

Visualisasi bivariate digunakan untuk melihat hubungan antara dua variabel, misalnya bagaimana jumlah penyewaan sepeda (cnt) dipengaruhi oleh faktor-faktor seperti bulan tertentu (mnth), hari tertentu (weekday), ataupun kecepatan angin(windspeed). Pendekatan ini memungkinkan analis tidak hanya memahami bagaimana data tersebar, tetapi juga mulai mengeksplorasi faktor-faktor yang berasosiasi dengan perubahan jumlah penyewaan sepeda.

Visualisasi bivariate membantu untuk melihat hubungan antarvariabel yang dapat menjelaskan pola penggunaan sepeda secara lebih mendalam. Berikut adalah beberapa jenis visualisasi bivariate yang dapat digunakan untuk menganalisis hubungan antara jumlah penyewaan sepeda (cnt) dengan variabel lain dalam dataset:

1. 2D Density Plot

library(ggplot2)
ggplot(bike_data, aes(x = weekday, y = cnt)) +
  geom_density_2d_filled() +
  theme_minimal() + scale_x_continuous(breaks = 0:6) +
  labs(title = "2D Density Plot dari Penyewaan Sepeda per Hari",
       x = "Hari",
       y = "Total penyewaan sepeda")

Grafik 2D Density Plot menunjukkan hubungan antara hari (weekday) dan total penyewaan sepeda (cnt). Variabel pada sumbu X adalah hari dalam seminggu yang dikodekan dari 0 sampai 6, sedangkan sumbu Y menunjukkan jumlah total penyewaan sepeda per hari. Warna pada grafik merepresentasikan tingkat kepadatan data, di mana warna yang lebih terang (kuning) menunjukkan konsentrasi data yang lebih tinggi, dan warna yang lebih gelap menunjukkan kepadatan yang lebih rendah.

Berdasarkan grafik, terlihat bahwa jumlah penyewaan sepeda paling sering berada pada kisaran 4.000 hingga 5.000 unit per hari, yang ditunjukkan oleh area dengan warna paling terang (kuning). Konsentrasi tertinggi ini terutama muncul pada hari-hari awal hingga pertengahan minggu (sekitar kode hari 1–3 atau hari senin sampai rabu). Hal ini menunjukkan bahwa pada rentang hari tersebut, jumlah penyewaan cenderung stabil dan berada pada tingkat menengah.

Sementara itu, jumlah penyewaan yang sangat rendah (di bawah 1.000 unit) maupun sangat tinggi (di atas 8.000 unit) memiliki kepadatan yang rendah, yang berarti kejadian tersebut jarang terjadi. Secara keseluruhan, distribusi penyewaan sepeda relatif merata antar hari tanpa perbedaan yang sangat mencolok. Variasi jumlah penyewaan lebih terkonsentrasi pada rentang menengah dibandingkan pada nilai ekstrem.

Dengan demikian, dapat disimpulkan bahwa setiap hari dalam seminggu tidak menunjukkan perbedaan yang sangat ekstrem terhadap jumlah penyewaan sepeda, dan sebagian besar aktivitas penyewaan terjadi pada jumlah unit di tingkat yang menengah sekitar 4.000–5.000 unit sepeda per harinya.

Keterangan variabel X (Hari):

2. Hexbin Plot

library(ggplot2)
library(hexbin)

ggplot(bike_data, aes(x = windspeed, y = cnt)) +
  geom_hex(bins = 30) +
  scale_fill_gradient(low = "yellow", high = "red") +
  labs(title = "Hexbin plot dari Total Penyewaan Sepeda terhadap Kecepatan Angin",
       x = "Kecepatan Angin",
       y = "Total Penyewaan sepeda",
       fill = "Count") +
  theme_minimal()

Grafik ini menunjukkan hubungan antara kecepatan angin dan total penyewaan sepeda pada hari kerja menggunakan hexbin plot (plot kepadatan berbentuk segienam).Sumbu X merupakan Kecepatan angin dan Sumbu Y merupakan Total penyewaan sepeda.

Warna (kuning → merah) menunjukkan banyaknya data pada area tersebut. Semakin merah, semakin banyak terjadi kejadian di titik tersebut. Dari grafik terlihat bahwa jumlah penyewaan sepeda paling banyak terjadi saat kecepatan angin berada di kisaran rendah hingga sedang (sekitar 0,1–0,25), dengan total penyewaan sepeda berkisar di angka 3.000–7.000 unit. Sedangkan Saat kecepatan angin semakin tinggi, jumlah penyewaan cenderung lebih rendah dan lebih jarang terjadi (warna makin terang dan titik makin menyebar).

Jadi, grafik ini menunjukkan bahwa saat angin tidak terlalu kencang cenderung mendukung jumlah penyewaan sepeda yang lebih tinggi, sedangkan angin yang lebih kuat berkaitan dengan penyewaan yang lebih sedikit.

3. Boxplot

library(ggplot2)

# Ubah mnth (bulan) jadi faktor
bike_data$mnth <- as.factor(bike_data$mnth)

# Buat boxplot per bulan
ggplot(bike_data, aes(x = mnth, y = cnt)) +
  geom_boxplot(fill = "pink", color = "black") +
  labs(title = "Boxplot Total Penyewaan Sepeda setiap Bulan",
       x = "Bulan (1–12)",
       y = "Total Penyewaan Sepeda") +
  theme_minimal()

Boxplot tersebut menunjukkan distribusi total penyewaan sepeda per hari (cnt) untuk masing-masing bulan (1–12). Setiap kotak merepresentasikan satu bulan, dengan garis di tengah sebagai median, kotak sebagai 50% data tengah (IQR), dan garis atas–bawah (whisker) menunjukkan rentang nilai minimum dan maksimum.

Dari grafik terlihat bahwa pada bulan 1–3 (januari- maret), median penyewaan masih relatif rendah, yaitu sekitar 2.000–3.500 unit per hari. Memasuki bulan 4–6 (april-juni), jumlah penyewaan mulai meningkat dengan median sekitar 4.000–5.500 unit. Puncak penyewaan terlihat pada bulan 7–9 (juli-september), di mana median berada di kisaran tertinggi (sekitar 5.000–5.500 unit), menunjukkan bahwa pertengahan tahun merupakan periode dengan permintaan sepeda paling tinggi.

Setelah itu, pada bulan 10–12 (oktober hingga desember), median kembali menurun ke kisaran 3.500–4.500 unit. Hal ini menunjukkan adanya pola musiman (seasonal pattern), di mana penyewaan meningkat menuju pertengahan tahun dan menurun di akhir tahun.

Selain itu, variasi data (tinggi kotak dan panjang whisker) terlihat lebih besar pada bulan pertengahan tahun, yang berarti peningkatan penyewaan sepeda lebih tinggi pada periode tersebut dibandingkan awal tahun.

Secara keseluruhan, grafik ini menunjukkan bahwa total penyewaan sepeda tidak stabil setiap bulannya, dimana puncak tertingginya padapertengahan tahun berkisar bulan juli hingga september dan penurunan di awal tahun dan akhir tahun.

Kesimpulan

Visualisasi bivariate antara jumlah penyewaan sepeda (cnt) dengan variabel lain seperti hari (weekday), windspeed (kecepatan angin), dan mnth (bulan) menunjukkan bahwa

  1. Hari(weekday) dalam seminggu tidak menunjukkan perbedaan yang sangat ekstrem terhadap jumlah penyewaan sepeda, dan sebagian besar aktivitas penyewaan tertinggi memiliki jumlah unit di tingkat yang menengah sekitar 4.000–5.000 unit sepeda per harinya.

  2. kecepatan Angin memiliki hubungan positif dengan jumlah penyewaan sepeda, di mana saat angin tidak terlalu kencang cenderung mendukung jumlah penyewaan sepeda yang lebih tinggi, sedangkan angin yang lebih kuat berkaitan dengan penyewaan yang lebih sedikit.

  3. Total penyewaan sepeda tidak stabil setiap bulannya, dimana puncak tertingginya pada pertengahan tahun berkisar bulan juli hingga september dan penurunan di awal tahun dan akhir tahun. Hal ini dapat terjadi disebabkan oleh faktor lainnya.