Data yang digunakan pada exercise ini adalah data penjemputan (pickup) penumpang oleh taxi di suatu kota. Pendataan dilakukan dengan mencatat waktu pickup dalam satu hari selama bulan Januari 2015. Data terdiri dari tiga kolom yaitu: (1) waktu dalam satu hari (menit), (2) urutan hari (1 = Senin s.d 7 = Minggu), dan (3) jumlah pickup.
taxi<-read.csv("https://raw.githubusercontent.com/greenore/ac209b-coursework/master/hw1/data/dataset_1_train.txt")
## Transform day numbers to characters
weekdays <- c("Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday","Sunday")
taxi$DayOfWeek <- factor(taxi$DayOfWeek, labels=weekdays,ordered=TRUE)
rm(weekdays)
## Transform to time in hours
taxi$TimeHours <- round((taxi$TimeMin / 60), 0)
Silahkan lakukan visualisasi data. Anda dapat menggunakan code berikut, maupun menggunakan code Anda sendiri. Diskusikan dengan rekan Anda: seperti apa sebaran PickupCount
dari hari ke hari selama 1 minggu?
library(tidyverse)
ggplot(taxi, aes(DayOfWeek, PickupCount)) +
labs(title="Plot I: Boxplot",
subtitle="Pickup count vs. day of the week") +
geom_boxplot(color="black") +
xlab("Weekday") +
ylab("Pickup count") +
theme_bw()
Selanjutnya, silahkan lakukan eksplorasi, dapat dengan memanfaatkan code berikut, serta diskusikan dengan rekan Anda: Seperti apa sebaran PickupCount
dari waktu ke waktu (pagi hingga malam)?
ggplot(taxi, aes(TimeMin, PickupCount)) +
geom_point(stroke=0, alpha=0.8) +
theme_bw() +
labs(title="Plot II: Scatterplot",
subtitle="Pickup count vs. time of the day") +
scale_x_continuous(breaks=c(0, 360, 720, 1080, 1440),
labels=c("00:00", "06:00", "12:00", "18:00", "24:00")) +
ylab(label="Pickup Count") +
xlab("Time of the day")
Lakukan pemulusan spline bersama rekan Anda, dan interpretasikan pola yang Anda peroleh.
Lakukan pendekatan LOESS bersama rekan Anda pada data ini, dan interpretasikan pola yang Anda peroleh.