Dataset yang digunakan dalam analisis ini adalah Bike Sharing Dataset yang diperoleh dari UCI Machine Learning Repository. Dataset ini berisi data penyewaan sepeda harian di Washington D.C. selama periode tahun 2011 hingga 2012. Selain mencatat jumlah total penyewaan sepeda (cnt), dataset ini juga memuat beberapa variabel pendukung seperti suhu (temp), kelembapan (hum), kecepatan angin (windspeed), musim (season), kondisi cuaca (weathersit), serta tipe pengguna yaitu pengguna kasual (casual) dan pengguna terdaftar (registered). Variabel-variabel tersebut dapat membantu menjelaskan faktor yang kemungkinan memengaruhi jumlah penyewaan sepeda.
Karena data memiliki komponen waktu berupa tanggal pengamatan harian, maka pendekatan yang digunakan adalah analisis time series. Analisis ini bertujuan untuk melihat pola perubahan jumlah penyewaan sepeda dari waktu ke waktu, mengidentifikasi kemungkinan adanya tren maupun pola musiman, serta memahami fluktuasi yang terjadi selama periode pengamatan. Melalui visualisasi data, diharapkan dapat diperoleh gambaran awal mengenai karakteristik data sehingga dapat menjadi dasar untuk analisis lanjutan yang lebih mendalam.
Analisis ini menggunakan pendekatan time series untuk melihat perubahan jumlah penyewaan sepeda dari waktu ke waktu.
library(DT)
library(ggplot2)
library(dplyr)
library(knitr)
library(kableExtra)
bike_data <- read.csv("~/Downloads/bike+sharing+dataset 2/day.csv")
head(bike_data)
## instant dteday season yr mnth holiday weekday workingday weathersit
## 1 1 2011-01-01 1 0 1 0 6 0 2
## 2 2 2011-01-02 1 0 1 0 0 0 2
## 3 3 2011-01-03 1 0 1 0 1 1 1
## 4 4 2011-01-04 1 0 1 0 2 1 1
## 5 5 2011-01-05 1 0 1 0 3 1 1
## 6 6 2011-01-06 1 0 1 0 4 1 1
## temp atemp hum windspeed casual registered cnt
## 1 0.344167 0.363625 0.805833 0.1604460 331 654 985
## 2 0.363478 0.353739 0.696087 0.2485390 131 670 801
## 3 0.196364 0.189405 0.437273 0.2483090 120 1229 1349
## 4 0.200000 0.212122 0.590435 0.1602960 108 1454 1562
## 5 0.226957 0.229270 0.436957 0.1869000 82 1518 1600
## 6 0.204348 0.233209 0.518261 0.0895652 88 1518 1606
colnames(bike_data)
## [1] "instant" "dteday" "season" "yr" "mnth"
## [6] "holiday" "weekday" "workingday" "weathersit" "temp"
## [11] "atemp" "hum" "windspeed" "casual" "registered"
## [16] "cnt"
Berdasarkan output, dataset memiliki 16 variabel yang terdiri dari
variabel numerik dan kategorik seperti temp,
atemp, hum, windspeed,
casual, registered, dan cnt.
| No | Variabel | Keterangan |
|---|---|---|
| 1 | temp | Suhu |
| 2 | atemp | Suhu terasa |
| 3 | hum | Kelembapan |
| 4 | windspeed | Kecepatan angin |
| 5 | casual | Jumlah user casual |
| 6 | registered | Jumlah user registered |
| 7 | cnt | Total penyewaan sepeda |
bike_data$dteday <- as.Date(bike_data$dteday)
ggplot(bike_data,
aes(x=dteday,
y=cnt))+
geom_line(color="pink2",
linewidth=1)+
labs(
title="Perubahan Jumlah Penyewaan Sepeda",
x="Tanggal",
y="Jumlah Penyewaan"
)+
theme_minimal()
Berdasarkan line chart jumlah penyewaan sepeda selama periode 2011–2012, terlihat bahwa data mengalami fluktuasi dari waktu ke waktu dengan kecenderungan meningkat pada tahun 2012 dibandingkan tahun 2011. Selain itu, terlihat adanya pola musiman dimana jumlah penyewaan cenderung lebih tinggi pada pertengahan tahun dan menurun pada awal serta akhir tahun. Hal ini menunjukkan bahwa penggunaan layanan bike sharing kemungkinan dipengaruhi oleh faktor waktu, kondisi cuaca, serta aktivitas masyarakat sehingga jumlah penyewaan tidak bersifat konstan setiap harinya.
ggplot(bike_data,
aes(x=dteday,
y=cnt))+
geom_point(color="pink2",
size=2)+
labs(
title="Scatter Plot Penyewaan Sepeda",
x="Tanggal",
y="Jumlah Penyewaan"
)+
theme_minimal()
Scatter plot menunjukkan bahwa jumlah penyewaan sepeda memiliki variasi yang cukup besar antar hari yang ditunjukkan oleh penyebaran titik yang tidak merata. Selain itu terlihat bahwa pada periode tertentu terdapat jumlah penyewaan yang lebih tinggi, yang mengindikasikan adanya pengaruh faktor musiman atau kondisi lingkungan. Jika dibandingkan antar tahun, terlihat bahwa jumlah penyewaan pada tahun 2012 cenderung lebih tinggi dibandingkan tahun 2011, yang menunjukkan adanya peningkatan penggunaan layanan bike sharing dari waktu ke waktu.
ts_data <- ts(bike_data$cnt,
start=c(2011,1),
frequency=365)
plot(ts_data,
main="Time Series Penyewaan Sepeda",
ylab="Jumlah",
xlab="Waktu",
col="pink")
Plot time series menunjukkan bahwa jumlah penyewaan sepeda memiliki pola tren yang cenderung meningkat serta adanya fluktuasi yang terjadi secara periodik. Pola ini menunjukkan adanya kemungkinan komponen trend dan seasonality dalam data. Selain itu, variasi data yang terjadi mengindikasikan bahwa jumlah penyewaan sepeda dipengaruhi oleh berbagai faktor yang berubah terhadap waktu sehingga analisis time series menjadi pendekatan yang tepat untuk memahami karakteristik data tersebut.
Berdasarkan hasil visualisasi data yang telah dilakukan, dapat disimpulkan bahwa jumlah penyewaan sepeda selama periode 2011–2012 menunjukkan pola yang dinamis dengan kecenderungan meningkat pada tahun kedua. Selain itu, terlihat adanya pola musiman serta variasi harian yang menunjukkan bahwa penyewaan sepeda dipengaruhi oleh faktor waktu dan kondisi tertentu. Oleh karena itu, visualisasi data menjadi langkah penting untuk memahami pola awal data sebelum dilakukan analisis lanjutan seperti pemodelan time series atau peramalan