CYCLISTIC BIKES OCT TO DEC 2021

SETTING UP ENVIRONMENT.

INSTALL PACKAGES.

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(data.table)

## 
## Attaching package: 'data.table'
## 
## The following objects are masked from 'package:lubridate':
## 
##     hour, isoweek, mday, minute, month, quarter, second, wday, week,
##     yday, year
## 
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
## 
## The following object is masked from 'package:purrr':
## 
##     transpose

library(hms)

## 
## Attaching package: 'hms'
## 
## The following object is masked from 'package:lubridate':
## 
##     hms

library(here)

## here() starts at C:/Users/SWill/Documents/OCT TO DEC CYCLISTIC BIKES

library(skimr)
library(janitor)

## 
## Attaching package: 'janitor'
## 
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

library(conflicted)
library(gtsummary)
library(scales)
library(RColorBrewer)
library(ggthemes)

SCIENTIFIC NOTATION RUINING YOUR GGPLOT CHARTS? TRY THE LINE OF CODE BELOW

options(scipen = 999)

USE ‘getwd()’ FUNCTION TO DISPLAY WORKING DIRECTORY.

getwd()

## [1] "C:/Users/SWill/Documents/OCT TO DEC CYCLISTIC BIKES"

USE ‘setwd()’ FUNCTION TO SET WORKING DIRECTORY TO SIMPLIFY CALLS TO DATA.

setwd("C:/Users/SWill/Documents/JAN TO MAR CYCLISTIC BIKES")

USE ‘spec_csv()’ FUNCTION TO CHECK THE DATA TYPES BEFORE READING THE DATA.

NOTICE ‘started_at’ AND ‘ended_at’ COLUMNS ARE ‘datetime’ DATA TYPE.

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202110-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202111-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202112-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

UPLOAD DATASETS divvy-trip-data.csv FILES.

df_10 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202110-divvy-tripdata.csv")
df_11 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202111-divvy-tripdata.csv")
df_12 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202112-divvy-tripdata.csv")

USE ‘bind_rows()’ FUNCTION TO STACK DATA FRAMES INTO ONE BIG DATA FRAME.

oct_to_dec <- bind_rows(df_10,df_11,df_12)

CHECK COLUMNS.

colnames(oct_to_dec)

##  [1] "ride_id"            "rideable_type"      "started_at"        
##  [4] "ended_at"           "start_station_name" "start_station_id"  
##  [7] "end_station_name"   "end_station_id"     "start_lat"         
## [10] "start_lng"          "end_lat"            "end_lng"           
## [13] "member_casual"

USE ‘glimpse()’ FUNCTION TO GET A BETTER UNDERSTANDING OF THE DATA.

Rows: 1,238,744 Columns: 13

COLUMNS ‘started_at’ AND ‘ended_at’ ARE NOW ‘character’ DATA TYPE.

COLUMNS ‘end_station_name’ AND ‘end_station_id’ HAVE BLANK ROWS THAT NEED TO BE REMOVED.

glimpse(oct_to_dec)

## Rows: 1,238,744
## Columns: 13
## $ ride_id            <chr> "620BC6107255BF4C", "4471C70731AB2E45", "26CA69D43D…
## $ rideable_type      <chr> "electric_bike", "electric_bike", "electric_bike", …
## $ started_at         <chr> "2021-10-22 12:46:42", "2021-10-21 09:12:37", "2021…
## $ ended_at           <chr> "2021-10-22 12:49:50", "2021-10-21 09:14:14", "2021…
## $ start_station_name <chr> "Kingsbury St & Kinzie St", "", "", "", "", "", "",…
## $ start_station_id   <chr> "KA1503000043", "", "", "", "", "", "", "", "", "",…
## $ end_station_name   <chr> "", "", "", "", "", "", "", "", "", "", "", "", "",…
## $ end_station_id     <chr> "", "", "", "", "", "", "", "", "", "", "", "", "",…
## $ start_lat          <dbl> 41.88919, 41.93000, 41.92000, 41.92000, 41.89000, 4…
## $ start_lng          <dbl> -87.63850, -87.70000, -87.70000, -87.69000, -87.710…
## $ end_lat            <dbl> 41.89000, 41.93000, 41.94000, 41.92000, 41.89000, 4…
## $ end_lng            <dbl> -87.63000, -87.71000, -87.72000, -87.69000, -87.690…
## $ member_casual      <chr> "member", "member", "member", "member", "member", "…

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘data.frame’: 1238744 obs. of 13 variables:

str(oct_to_dec)

## 'data.frame':    1238744 obs. of  13 variables:
##  $ ride_id           : chr  "620BC6107255BF4C" "4471C70731AB2E45" "26CA69D43D15EE14" "362947F0437E1514" ...
##  $ rideable_type     : chr  "electric_bike" "electric_bike" "electric_bike" "electric_bike" ...
##  $ started_at        : chr  "2021-10-22 12:46:42" "2021-10-21 09:12:37" "2021-10-16 16:28:39" "2021-10-16 16:17:48" ...
##  $ ended_at          : chr  "2021-10-22 12:49:50" "2021-10-21 09:14:14" "2021-10-16 16:36:26" "2021-10-16 16:19:03" ...
##  $ start_station_name: chr  "Kingsbury St & Kinzie St" "" "" "" ...
##  $ start_station_id  : chr  "KA1503000043" "" "" "" ...
##  $ end_station_name  : chr  "" "" "" "" ...
##  $ end_station_id    : chr  "" "" "" "" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : chr  "member" "member" "member" "member" ...

USE TIDYR TO SEPARATE “started_at” COLUMN TO A NEW COLUMN CALLED “start_date” and “start_time”.

USE TIDYR TO SEPARATE “ended_at” COLUMN TO A NEW COLUMN CALLED “end_date” and “end_time”.

oct_to_dec <- tidyr::separate(oct_to_dec, started_at, c("start_date", "start_time"), sep = " ", remove = FALSE)
oct_to_dec <- tidyr::separate(oct_to_dec, ended_at, c("end_date", "end_time"), sep = " ", remove = FALSE)

CHECK NEW COLUMNS.

colnames(oct_to_dec)

##  [1] "ride_id"            "rideable_type"      "started_at"        
##  [4] "start_date"         "start_time"         "ended_at"          
##  [7] "end_date"           "end_time"           "start_station_name"
## [10] "start_station_id"   "end_station_name"   "end_station_id"    
## [13] "start_lat"          "start_lng"          "end_lat"           
## [16] "end_lng"            "member_casual"

‘data.frame’: 1238744 obs. of 17 variables:

str(oct_to_dec)

## 'data.frame':    1238744 obs. of  17 variables:
##  $ ride_id           : chr  "620BC6107255BF4C" "4471C70731AB2E45" "26CA69D43D15EE14" "362947F0437E1514" ...
##  $ rideable_type     : chr  "electric_bike" "electric_bike" "electric_bike" "electric_bike" ...
##  $ started_at        : chr  "2021-10-22 12:46:42" "2021-10-21 09:12:37" "2021-10-16 16:28:39" "2021-10-16 16:17:48" ...
##  $ start_date        : chr  "2021-10-22" "2021-10-21" "2021-10-16" "2021-10-16" ...
##  $ start_time        : chr  "12:46:42" "09:12:37" "16:28:39" "16:17:48" ...
##  $ ended_at          : chr  "2021-10-22 12:49:50" "2021-10-21 09:14:14" "2021-10-16 16:36:26" "2021-10-16 16:19:03" ...
##  $ end_date          : chr  "2021-10-22" "2021-10-21" "2021-10-16" "2021-10-16" ...
##  $ end_time          : chr  "12:49:50" "09:14:14" "16:36:26" "16:19:03" ...
##  $ start_station_name: chr  "Kingsbury St & Kinzie St" "" "" "" ...
##  $ start_station_id  : chr  "KA1503000043" "" "" "" ...
##  $ end_station_name  : chr  "" "" "" "" ...
##  $ end_station_id    : chr  "" "" "" "" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : chr  "member" "member" "member" "member" ...

EXPLORE AND MANIPULATE DATA FRAME OCT TO DEC.

COLUMN RIDEABLE TYPE.

EXPLORE CHARACTER VARIABLE TYPE IN “rideable_type” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$rideable_type)

## [1] "character"

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

unique(oct_to_dec$rideable_type)

## [1] "electric_bike" "docked_bike"   "classic_bike"

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

table(oct_to_dec$rideable_type)

## 
##  classic_bike   docked_bike electric_bike 
##        570813         35426        632505

sort(table(oct_to_dec$rideable_type), decreasing = TRUE)

## 
## electric_bike  classic_bike   docked_bike 
##        632505        570813         35426

BAR PLOT OF DATA DISTRIBUTION OF ‘rideable_type’ COLUMN.

barplot(sort(table(oct_to_dec$rideable_type), decreasing = TRUE))

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

oct_to_dec$rideable_type <- as.factor(oct_to_dec$rideable_type)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$rideable_type)

## [1] "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(oct_to_dec$rideable_type)

## [1] "classic_bike"  "docked_bike"   "electric_bike"

NOTE RIDEABLE TYPE IS NOW A FACTOR.

glimpse(oct_to_dec)

## Rows: 1,238,744
## Columns: 17
## $ ride_id            <chr> "620BC6107255BF4C", "4471C70731AB2E45", "26CA69D43D…
## $ rideable_type      <fct> electric_bike, electric_bike, electric_bike, electr…
## $ started_at         <chr> "2021-10-22 12:46:42", "2021-10-21 09:12:37", "2021…
## $ start_date         <chr> "2021-10-22", "2021-10-21", "2021-10-16", "2021-10-…
## $ start_time         <chr> "12:46:42", "09:12:37", "16:28:39", "16:17:48", "23…
## $ ended_at           <chr> "2021-10-22 12:49:50", "2021-10-21 09:14:14", "2021…
## $ end_date           <chr> "2021-10-22", "2021-10-21", "2021-10-16", "2021-10-…
## $ end_time           <chr> "12:49:50", "09:14:14", "16:36:26", "16:19:03", "23…
## $ start_station_name <chr> "Kingsbury St & Kinzie St", "", "", "", "", "", "",…
## $ start_station_id   <chr> "KA1503000043", "", "", "", "", "", "", "", "", "",…
## $ end_station_name   <chr> "", "", "", "", "", "", "", "", "", "", "", "", "",…
## $ end_station_id     <chr> "", "", "", "", "", "", "", "", "", "", "", "", "",…
## $ start_lat          <dbl> 41.88919, 41.93000, 41.92000, 41.92000, 41.89000, 4…
## $ start_lng          <dbl> -87.63850, -87.70000, -87.70000, -87.69000, -87.710…
## $ end_lat            <dbl> 41.89000, 41.93000, 41.94000, 41.92000, 41.89000, 4…
## $ end_lng            <dbl> -87.63000, -87.71000, -87.72000, -87.69000, -87.690…
## $ member_casual      <chr> "member", "member", "member", "member", "member", "…

COLUMN STARTED_AT AND ENDED_AT.

EXPLORE…CHARACTER VARIABLE TYPE IN “started_at” AND ended_at” COLUMN.

DATA TYPE IN COLUMN “started_at” AND “end_at” WAS DATETIME BEFORE UPLOADING.

CONVERT “started_at” AND “ended_at” COLUMN FROM CHARACTER TO DATETIME

oct_to_dec$started_at <- as.POSIXlt(oct_to_dec$started_at, format="%Y-%m-%d %H:%M:%S", tz="UTC")
oct_to_dec$ended_at <- as.POSIXlt(oct_to_dec$ended_at, format="%Y-%m-%d %H:%M:%S", tz="UTC")

CONVERT “start_date” COLUMN FROM CHARACTER TO DATE FORMAT.

oct_to_dec$start_date <- as.POSIXlt(oct_to_dec$start_date)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$start_date)

## [1] "POSIXlt" "POSIXt"

CONVERT “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

oct_to_dec$end_date <- as.POSIXlt(oct_to_dec$end_date)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$end_date)

## [1] "POSIXlt" "POSIXt"

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘started_at’AND ’ended_at’ CHARACTER DATA TYPE IS NOW POSIXlt.

‘data.frame’: 1238744 obs. of 17 variables:

str(oct_to_dec)

## 'data.frame':    1238744 obs. of  17 variables:
##  $ ride_id           : chr  "620BC6107255BF4C" "4471C70731AB2E45" "26CA69D43D15EE14" "362947F0437E1514" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ started_at        : POSIXlt, format: "2021-10-22 12:46:42" "2021-10-21 09:12:37" ...
##  $ start_date        : POSIXlt, format: "2021-10-22" "2021-10-21" ...
##  $ start_time        : chr  "12:46:42" "09:12:37" "16:28:39" "16:17:48" ...
##  $ ended_at          : POSIXlt, format: "2021-10-22 12:49:50" "2021-10-21 09:14:14" ...
##  $ end_date          : POSIXlt, format: "2021-10-22" "2021-10-21" ...
##  $ end_time          : chr  "12:49:50" "09:14:14" "16:36:26" "16:19:03" ...
##  $ start_station_name: chr  "Kingsbury St & Kinzie St" "" "" "" ...
##  $ start_station_id  : chr  "KA1503000043" "" "" "" ...
##  $ end_station_name  : chr  "" "" "" "" ...
##  $ end_station_id    : chr  "" "" "" "" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : chr  "member" "member" "member" "member" ...

COLUMN START_STATION_NAME START_STATION_ID END_STATION_NAME AND END_STATION_ID.

EXPLORE…CHARACTER VARIABLE TYPE IN “start_staion_name” AND “end_staion_name”

REPLACE ALL BLANK VALUES IN “start_station_name” COLUMN WITH NA VALUES.

oct_to_dec$start_station_name[oct_to_dec$start_station_name==""] <- NA

REPLACE ALL BLANK VALUES IN “start_station_id” COLUMN WITH NA VALUES.

oct_to_dec$start_station_id[oct_to_dec$start_station_id==""] <- NA

REPLACE ALL BLANK VALUES IN “end_station_name” COLUMN WITH NA VALUES.

oct_to_dec$end_station_name[oct_to_dec$end_station_name==""] <- NA

REPLACE ALL BLANK VALUES IN “end_station_id” COLUMN WITH NA VALUES.

oct_to_dec$end_station_id[oct_to_dec$end_station_id==""] <- NA

glimpse(oct_to_dec)

## Rows: 1,238,744
## Columns: 17
## $ ride_id            <chr> "620BC6107255BF4C", "4471C70731AB2E45", "26CA69D43D…
## $ rideable_type      <fct> electric_bike, electric_bike, electric_bike, electr…
## $ started_at         <dttm> 2021-10-22 12:46:42, 2021-10-21 09:12:37, 2021-10-…
## $ start_date         <dttm> 2021-10-22, 2021-10-21, 2021-10-16, 2021-10-16, 20…
## $ start_time         <chr> "12:46:42", "09:12:37", "16:28:39", "16:17:48", "23…
## $ ended_at           <dttm> 2021-10-22 12:49:50, 2021-10-21 09:14:14, 2021-10-…
## $ end_date           <dttm> 2021-10-22, 2021-10-21, 2021-10-16, 2021-10-16, 20…
## $ end_time           <chr> "12:49:50", "09:14:14", "16:36:26", "16:19:03", "23…
## $ start_station_name <chr> "Kingsbury St & Kinzie St", NA, NA, NA, NA, NA, NA,…
## $ start_station_id   <chr> "KA1503000043", NA, NA, NA, NA, NA, NA, NA, NA, NA,…
## $ end_station_name   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
## $ end_station_id     <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
## $ start_lat          <dbl> 41.88919, 41.93000, 41.92000, 41.92000, 41.89000, 4…
## $ start_lng          <dbl> -87.63850, -87.70000, -87.70000, -87.69000, -87.710…
## $ end_lat            <dbl> 41.89000, 41.93000, 41.94000, 41.92000, 41.89000, 4…
## $ end_lng            <dbl> -87.63000, -87.71000, -87.72000, -87.69000, -87.690…
## $ member_casual      <chr> "member", "member", "member", "member", "member", "…

REMOVE ROWS WITH NA VALUES IN ALL COLUMNS.

oct_to_dec <- oct_to_dec %>% drop_na()

‘data.frame’: 910247 obs. of 17 variables:

str(oct_to_dec)

## 'data.frame':    910247 obs. of  17 variables:
##  $ ride_id           : chr  "614B15BC42810184" "ADCC6E3CF9C04688" "6184CC57243AEF3C" "DE02D027BAC5C820" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 2 2 1 1 2 1 1 3 ...
##  $ started_at        : POSIXlt, format: "2021-10-05 10:56:05" "2021-10-06 13:55:33" ...
##  $ start_date        : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ start_time        : chr  "10:56:05" "13:55:33" "10:19:43" "11:03:34" ...
##  $ ended_at          : POSIXlt, format: "2021-10-05 11:38:48" "2021-10-06 13:58:16" ...
##  $ end_date          : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ end_time          : chr  "11:38:48" "13:58:16" "12:01:20" "13:10:01" ...
##  $ start_station_name: chr  "Michigan Ave & Oak St" "Desplaines St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ start_station_id  : chr  "13042" "TA1306000003" "13042" "13042" ...
##  $ end_station_name  : chr  "Michigan Ave & Oak St" "Kingsbury St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ end_station_id    : chr  "13042" "KA1503000043" "13042" "13042" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ member_casual     : chr  "casual" "member" "casual" "casual" ...

COLUMN MEMBER_CASUAL.

EXPLORE CHARACTER VARIABLE TYPE IN “member_casual” COLUMN.

USE ‘unique()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

unique(oct_to_dec$member_casual)

## [1] "casual" "member"

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

table(oct_to_dec$member_casual)

## 
## casual member 
## 304171 606076

sort(table(oct_to_dec$member_casual), decreasing = TRUE)

## 
## member casual 
## 606076 304171

BAR PLOT OF DATA DISTRIBUTION OF ‘member_casual’ COLUMN.

barplot(sort(table(oct_to_dec$member_casual), decreasing = TRUE))

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

oct_to_dec$member_casual <- as.factor(oct_to_dec$member_casual)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$member_casual)

## [1] "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(oct_to_dec$member_casual)

## [1] "casual" "member"

NOTE MEMBER CASUAL IS NOW A FACTOR.

glimpse(oct_to_dec)

## Rows: 910,247
## Columns: 17
## $ ride_id            <chr> "614B15BC42810184", "ADCC6E3CF9C04688", "6184CC5724…
## $ rideable_type      <fct> docked_bike, classic_bike, docked_bike, docked_bike…
## $ started_at         <dttm> 2021-10-05 10:56:05, 2021-10-06 13:55:33, 2021-10-…
## $ start_date         <dttm> 2021-10-05, 2021-10-06, 2021-10-16, 2021-10-24, 20…
## $ start_time         <chr> "10:56:05", "13:55:33", "10:19:43", "11:03:34", "23…
## $ ended_at           <dttm> 2021-10-05 11:38:48, 2021-10-06 13:58:16, 2021-10-…
## $ end_date           <dttm> 2021-10-05, 2021-10-06, 2021-10-16, 2021-10-24, 20…
## $ end_time           <chr> "11:38:48", "13:58:16", "12:01:20", "13:10:01", "23…
## $ start_station_name <chr> "Michigan Ave & Oak St", "Desplaines St & Kinzie St…
## $ start_station_id   <chr> "13042", "TA1306000003", "13042", "13042", "KA15030…
## $ end_station_name   <chr> "Michigan Ave & Oak St", "Kingsbury St & Kinzie St"…
## $ end_station_id     <chr> "13042", "KA1503000043", "13042", "13042", "TA13060…
## $ start_lat          <dbl> 41.90096, 41.88872, 41.90096, 41.90096, 41.88918, 4…
## $ start_lng          <dbl> -87.62378, -87.64445, -87.62378, -87.62378, -87.638…
## $ end_lat            <dbl> 41.90096, 41.88918, 41.90096, 41.90096, 41.88872, 4…
## $ end_lng            <dbl> -87.62378, -87.63851, -87.62378, -87.62378, -87.644…
## $ member_casual      <fct> casual, member, casual, casual, member, member, cas…

ADD A CALCULATED FIELD FOR NEW COLUMN “ride_length_secs”.

oct_to_dec$ride_length_secs <- difftime(oct_to_dec$ended_at,oct_to_dec$started_at)

CHECK DATA TYPE.

is.numeric(oct_to_dec$ride_length_secs)

## [1] FALSE

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$ride_length_secs)

## [1] "difftime"

CONVERT “ride_length_secs” FROM DIFFTIME TO NUMERIC TO RUN CALCULATIONS ON THE DATA.

oct_to_dec$ride_length_secs <- as.numeric(as.character(oct_to_dec$ride_length_secs))

CHECK DATA TYPE.

is.numeric(oct_to_dec$ride_length_secs)

## [1] TRUE

CREATE NEW COLUMN “ride_length_total” USING MUTATE FUNCTION.

oct_to_dec <- mutate(oct_to_dec, ride_length_total = ride_length_secs/60)

CHECK DATA TYPE.

is.numeric(oct_to_dec$ride_length_total)

## [1] TRUE

ADD COLUMN FOR DAY OF WEEK.

NUMERIC VALUE DAY OF WEEK SUNDAY = 1 MONDAY = 2 TUESDAY = 3 ETC, ETC…

oct_to_dec$weekday <- lubridate::wday(oct_to_dec$start_date)

CHARACTER DAY OF WEEK USING ABBREVIATED LABELS MON,TUE,WED ETC ETC…

oct_to_dec$weekday. <- lubridate::wday(oct_to_dec$start_date, label = TRUE)

CHANGE ‘weekday’ DATA TYPE.

oct_to_dec$weekday. <- as.factor(oct_to_dec$weekday.)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$weekday.)

## [1] "ordered" "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(oct_to_dec$weekday.)

## [1] "Sun" "Mon" "Tue" "Wed" "Thu" "Fri" "Sat"

NOTE WEEKDAY. IS AN ORDERED FACTOR.

glimpse(oct_to_dec)

## Rows: 910,247
## Columns: 21
## $ ride_id            <chr> "614B15BC42810184", "ADCC6E3CF9C04688", "6184CC5724…
## $ rideable_type      <fct> docked_bike, classic_bike, docked_bike, docked_bike…
## $ started_at         <dttm> 2021-10-05 10:56:05, 2021-10-06 13:55:33, 2021-10-…
## $ start_date         <dttm> 2021-10-05, 2021-10-06, 2021-10-16, 2021-10-24, 20…
## $ start_time         <chr> "10:56:05", "13:55:33", "10:19:43", "11:03:34", "23…
## $ ended_at           <dttm> 2021-10-05 11:38:48, 2021-10-06 13:58:16, 2021-10-…
## $ end_date           <dttm> 2021-10-05, 2021-10-06, 2021-10-16, 2021-10-24, 20…
## $ end_time           <chr> "11:38:48", "13:58:16", "12:01:20", "13:10:01", "23…
## $ start_station_name <chr> "Michigan Ave & Oak St", "Desplaines St & Kinzie St…
## $ start_station_id   <chr> "13042", "TA1306000003", "13042", "13042", "KA15030…
## $ end_station_name   <chr> "Michigan Ave & Oak St", "Kingsbury St & Kinzie St"…
## $ end_station_id     <chr> "13042", "KA1503000043", "13042", "13042", "TA13060…
## $ start_lat          <dbl> 41.90096, 41.88872, 41.90096, 41.90096, 41.88918, 4…
## $ start_lng          <dbl> -87.62378, -87.64445, -87.62378, -87.62378, -87.638…
## $ end_lat            <dbl> 41.90096, 41.88918, 41.90096, 41.90096, 41.88872, 4…
## $ end_lng            <dbl> -87.62378, -87.63851, -87.62378, -87.62378, -87.644…
## $ member_casual      <fct> casual, member, casual, casual, member, member, cas…
## $ ride_length_secs   <dbl> 2563, 163, 6097, 7587, 125, 3075, 5150, 1223, 1364,…
## $ ride_length_total  <dbl> 42.7166667, 2.7166667, 101.6166667, 126.4500000, 2.…
## $ weekday            <dbl> 3, 4, 7, 1, 7, 2, 6, 5, 6, 1, 2, 6, 1, 2, 3, 7, 7, …
## $ weekday.           <ord> Tue, Wed, Sat, Sun, Sat, Mon, Fri, Thu, Fri, Sun, M…

EXPLORE NUMERIC VARIABLE TYPE IN “weekday” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(oct_to_dec$weekday)

## [1] "numeric"

USE ‘summary()’ FUNCTION TO SUMMARIZE VALUES IN DATA FRAME.

summary(oct_to_dec$weekday)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   4.000   4.129   6.000   7.000

BOX PLOT AKA IS A GRAPHICAL REPRESENTATION TO SUMMARIZE DATA AND IDENTIFY OUTLIERS.

boxplot(oct_to_dec$weekday, col = 'blue')

HISTOGRAM TO VIZUALIZE DISTRIBUTION OF VALUES IN WEEKDAY COLUMN.

hist(oct_to_dec$weekday, col='green')

NOTE WEEKDAY IS NOW A ‘dbl’.

glimpse(oct_to_dec)

## Rows: 910,247
## Columns: 21
## $ ride_id            <chr> "614B15BC42810184", "ADCC6E3CF9C04688", "6184CC5724…
## $ rideable_type      <fct> docked_bike, classic_bike, docked_bike, docked_bike…
## $ started_at         <dttm> 2021-10-05 10:56:05, 2021-10-06 13:55:33, 2021-10-…
## $ start_date         <dttm> 2021-10-05, 2021-10-06, 2021-10-16, 2021-10-24, 20…
## $ start_time         <chr> "10:56:05", "13:55:33", "10:19:43", "11:03:34", "23…
## $ ended_at           <dttm> 2021-10-05 11:38:48, 2021-10-06 13:58:16, 2021-10-…
## $ end_date           <dttm> 2021-10-05, 2021-10-06, 2021-10-16, 2021-10-24, 20…
## $ end_time           <chr> "11:38:48", "13:58:16", "12:01:20", "13:10:01", "23…
## $ start_station_name <chr> "Michigan Ave & Oak St", "Desplaines St & Kinzie St…
## $ start_station_id   <chr> "13042", "TA1306000003", "13042", "13042", "KA15030…
## $ end_station_name   <chr> "Michigan Ave & Oak St", "Kingsbury St & Kinzie St"…
## $ end_station_id     <chr> "13042", "KA1503000043", "13042", "13042", "TA13060…
## $ start_lat          <dbl> 41.90096, 41.88872, 41.90096, 41.90096, 41.88918, 4…
## $ start_lng          <dbl> -87.62378, -87.64445, -87.62378, -87.62378, -87.638…
## $ end_lat            <dbl> 41.90096, 41.88918, 41.90096, 41.90096, 41.88872, 4…
## $ end_lng            <dbl> -87.62378, -87.63851, -87.62378, -87.62378, -87.644…
## $ member_casual      <fct> casual, member, casual, casual, member, member, cas…
## $ ride_length_secs   <dbl> 2563, 163, 6097, 7587, 125, 3075, 5150, 1223, 1364,…
## $ ride_length_total  <dbl> 42.7166667, 2.7166667, 101.6166667, 126.4500000, 2.…
## $ weekday            <dbl> 3, 4, 7, 1, 7, 2, 6, 5, 6, 1, 2, 6, 1, 2, 3, 7, 7, …
## $ weekday.           <ord> Tue, Wed, Sat, Sun, Sat, Mon, Fri, Thu, Fri, Sun, M…

NOTE WEEKDAY IS NOW NUMERIC.

str(oct_to_dec)

## 'data.frame':    910247 obs. of  21 variables:
##  $ ride_id           : chr  "614B15BC42810184" "ADCC6E3CF9C04688" "6184CC57243AEF3C" "DE02D027BAC5C820" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 2 2 1 1 2 1 1 3 ...
##  $ started_at        : POSIXlt, format: "2021-10-05 10:56:05" "2021-10-06 13:55:33" ...
##  $ start_date        : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ start_time        : chr  "10:56:05" "13:55:33" "10:19:43" "11:03:34" ...
##  $ ended_at          : POSIXlt, format: "2021-10-05 11:38:48" "2021-10-06 13:58:16" ...
##  $ end_date          : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ end_time          : chr  "11:38:48" "13:58:16" "12:01:20" "13:10:01" ...
##  $ start_station_name: chr  "Michigan Ave & Oak St" "Desplaines St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ start_station_id  : chr  "13042" "TA1306000003" "13042" "13042" ...
##  $ end_station_name  : chr  "Michigan Ave & Oak St" "Kingsbury St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ end_station_id    : chr  "13042" "KA1503000043" "13042" "13042" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 1 2 1 1 2 2 1 2 2 2 ...
##  $ ride_length_secs  : num  2563 163 6097 7587 125 ...
##  $ ride_length_total : num  42.72 2.72 101.62 126.45 2.08 ...
##  $ weekday           : num  3 4 7 1 7 2 6 5 6 1 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 3 4 7 1 7 2 6 5 6 1 ...

NEW COLUMN RIDE_LENGTH_SECS

DELETE RIDES UNDER 2 MINUTES (> 120) 882790 ROWS REMAIN.

oct_to_dec <- subset(oct_to_dec, ride_length_secs > 120)

‘data.frame’: 882790 obs. of 21 variables:

str(oct_to_dec)

## 'data.frame':    882790 obs. of  21 variables:
##  $ ride_id           : chr  "614B15BC42810184" "ADCC6E3CF9C04688" "6184CC57243AEF3C" "DE02D027BAC5C820" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 2 2 1 1 2 1 1 3 ...
##  $ started_at        : POSIXlt, format: "2021-10-05 10:56:05" "2021-10-06 13:55:33" ...
##  $ start_date        : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ start_time        : chr  "10:56:05" "13:55:33" "10:19:43" "11:03:34" ...
##  $ ended_at          : POSIXlt, format: "2021-10-05 11:38:48" "2021-10-06 13:58:16" ...
##  $ end_date          : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ end_time          : chr  "11:38:48" "13:58:16" "12:01:20" "13:10:01" ...
##  $ start_station_name: chr  "Michigan Ave & Oak St" "Desplaines St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ start_station_id  : chr  "13042" "TA1306000003" "13042" "13042" ...
##  $ end_station_name  : chr  "Michigan Ave & Oak St" "Kingsbury St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ end_station_id    : chr  "13042" "KA1503000043" "13042" "13042" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 1 2 1 1 2 2 1 2 2 2 ...
##  $ ride_length_secs  : num  2563 163 6097 7587 125 ...
##  $ ride_length_total : num  42.72 2.72 101.62 126.45 2.08 ...
##  $ weekday           : num  3 4 7 1 7 2 6 5 6 1 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 3 4 7 1 7 2 6 5 6 1 ...

DELETE RIDES OVER 24 HOURS (> 86400) 882631 ROWS REMAIN.

oct_to_dec <- subset(oct_to_dec, ride_length_secs < 86400)

‘data.frame’: 882631 obs. of 21 variables:

str(oct_to_dec)

## 'data.frame':    882631 obs. of  21 variables:
##  $ ride_id           : chr  "614B15BC42810184" "ADCC6E3CF9C04688" "6184CC57243AEF3C" "DE02D027BAC5C820" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 2 2 1 1 2 1 1 3 ...
##  $ started_at        : POSIXlt, format: "2021-10-05 10:56:05" "2021-10-06 13:55:33" ...
##  $ start_date        : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ start_time        : chr  "10:56:05" "13:55:33" "10:19:43" "11:03:34" ...
##  $ ended_at          : POSIXlt, format: "2021-10-05 11:38:48" "2021-10-06 13:58:16" ...
##  $ end_date          : POSIXlt, format: "2021-10-05" "2021-10-06" ...
##  $ end_time          : chr  "11:38:48" "13:58:16" "12:01:20" "13:10:01" ...
##  $ start_station_name: chr  "Michigan Ave & Oak St" "Desplaines St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ start_station_id  : chr  "13042" "TA1306000003" "13042" "13042" ...
##  $ end_station_name  : chr  "Michigan Ave & Oak St" "Kingsbury St & Kinzie St" "Michigan Ave & Oak St" "Michigan Ave & Oak St" ...
##  $ end_station_id    : chr  "13042" "KA1503000043" "13042" "13042" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.6 -87.6 -87.6 -87.6 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 1 2 1 1 2 2 1 2 2 2 ...
##  $ ride_length_secs  : num  2563 163 6097 7587 125 ...
##  $ ride_length_total : num  42.72 2.72 101.62 126.45 2.08 ...
##  $ weekday           : num  3 4 7 1 7 2 6 5 6 1 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 3 4 7 1 7 2 6 5 6 1 ...

SORT DATA FRAME BY DATE AND TIMES

oct_to_dec <- oct_to_dec %>% arrange(ymd_hms(oct_to_dec$started_at))

CREATE NEW DATA FRAME (oct_to_dec_v2) FROM DATA FRAME (oct_to_dec).

oct_to_dec_v2 <- oct_to_dec[c('rideable_type', 'started_at', 'start_date', 'member_casual', 'ride_length_secs', 'ride_length_total', 'weekday', 'weekday.')]

DESCRIPTIVE ANALYSIS ON RIDE LENGTH.

MINIMUM TRIP TIME.

min(oct_to_dec_v2$ride_length_secs)

## [1] 121

MIDDLE VALUE IN OCT TO DEC DATASET.

median(oct_to_dec_v2$ride_length_secs)

## [1] 598

MAXIMUM TRIP TIME.

max(oct_to_dec_v2$ride_length_secs)

## [1] 86052

AVERAGE TRIP.

mean(oct_to_dec_v2$ride_length_secs)

## [1] 936.8422

THE DIFFERENCE BETWEEN MAXIMUM AND MINIMUM TRIP.

range(oct_to_dec_v2$ride_length_secs)

## [1]   121 86052

DIFFERENCE BETWEEN THE FIRST QUARTILE AND THIRD QUARTILE OF OCT TO DEC.

IQR(oct_to_dec_v2$ride_length_secs)

## [1] 679

COMPARE MEMBERS AND CASUAL RIDERS.

MEMBERS Vs CASUAL MINIMUM TRIP TIME.

aggregate(oct_to_dec_v2$ride_length_secs ~ oct_to_dec_v2$member_casual, FUN = min)

##   oct_to_dec_v2$member_casual oct_to_dec_v2$ride_length_secs
## 1                      casual                            121
## 2                      member                            121

MEMBERS Vs CASUAL MIDDLE VALUE IN OCT TO DEC DATASET.

aggregate(oct_to_dec_v2$ride_length_secs ~ oct_to_dec_v2$member_casual, FUN = median)

##   oct_to_dec_v2$member_casual oct_to_dec_v2$ride_length_secs
## 1                      casual                            813
## 2                      member                            518

MEMBERS Vs CASUAL MAXIMUM TRIP TIME.

aggregate(oct_to_dec_v2$ride_length_secs ~ oct_to_dec_v2$member_casual, FUN = max)

##   oct_to_dec_v2$member_casual oct_to_dec_v2$ride_length_secs
## 1                      casual                          86052
## 2                      member                          85594

MEMBERS Vs CASUAL AVERAGE TRIP.

aggregate(oct_to_dec_v2$ride_length_secs ~ oct_to_dec_v2$member_casual, FUN = mean)

##   oct_to_dec_v2$member_casual oct_to_dec_v2$ride_length_secs
## 1                      casual                      1388.5809
## 2                      member                       705.6799

AVERAGE RIDE TIME FOR EACH DAY FOR MEMBERS Vs CASUAL RIDERS.

aggregate(oct_to_dec_v2$ride_length_total ~ oct_to_dec_v2$member_casual + oct_to_dec_v2$weekday., FUN = mean)

##    oct_to_dec_v2$member_casual oct_to_dec_v2$weekday.
## 1                       casual                    Sun
## 2                       member                    Sun
## 3                       casual                    Mon
## 4                       member                    Mon
## 5                       casual                    Tue
## 6                       member                    Tue
## 7                       casual                    Wed
## 8                       member                    Wed
## 9                       casual                    Thu
## 10                      member                    Thu
## 11                      casual                    Fri
## 12                      member                    Fri
## 13                      casual                    Sat
## 14                      member                    Sat
##    oct_to_dec_v2$ride_length_total
## 1                         27.71726
## 2                         13.34213
## 3                         21.87272
## 4                         11.20230
## 5                         19.65998
## 6                         11.17301
## 7                         19.25087
## 8                         11.29488
## 9                         18.27964
## 10                        11.00383
## 11                        22.04564
## 12                        11.55413
## 13                        26.06247
## 14                        13.31127

oct_to_dec_v2 %>% 
  group_by(member_casual, weekday.) %>%  
  summarise(number_of_rides = n(),average_duration = mean(ride_length_total)) %>%       
  arrange(member_casual, weekday.)

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

## # A tibble: 14 × 4
## # Groups:   member_casual [2]
##    member_casual weekday. number_of_rides average_duration
##    <fct>         <ord>              <int>            <dbl>
##  1 casual        Sun                57018             27.7
##  2 casual        Mon                29313             21.9
##  3 casual        Tue                32453             19.7
##  4 casual        Wed                33402             19.3
##  5 casual        Thu                29601             18.3
##  6 casual        Fri                44340             22.0
##  7 casual        Sat                72644             26.1
##  8 member        Sun                64549             13.3
##  9 member        Mon                79895             11.2
## 10 member        Tue                96841             11.2
## 11 member        Wed                96161             11.3
## 12 member        Thu                81186             11.0
## 13 member        Fri                85446             11.6
## 14 member        Sat                79782             13.3

DATA VISUALIZATIONS AND SUMMARY

COUNT ‘member_casual’ FOR PIE CHART

CREATE DATA FRAME FOR PIE CHART

MEMBER Vs CASUAL OCT TO DEC PIE CHART

oct_to_dec_v2_tot <- oct_to_dec_v2 %>% 
  group_by(member_casual) %>% 
  summarise(number_of_rides = n()) 

pie_cvm <- data.frame(group = c("casual", "member"), value = c(298771, 583860))

ggplot(pie_cvm, aes(x = "", y = value, fill = group)) +
  geom_col(width = 1) +
  coord_polar("y") +
  geom_text(aes(label = round(value, 3)), position = position_stack(vjust = 0.5))+
  scale_fill_brewer(palette = "Accent")+
  labs(title = "October to December 2021 Totals.")+
  theme_economist()

MEMBER Vs CASUAL OCT TO DEC DAILY TOTALS.

oct_to_dec_v2 %>% 
  group_by(member_casual, weekday.) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = member_casual)) +
  scale_fill_brewer(palette = "Accent")+
  labs(title = "October to December 2021 Daily Totals.",
       x = "Weekday",
       y = "Number of Rides")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

SUMMARY MEMBER Vs CASUAL OCT TO DEC DAILY TOTALS.

oct_to_dec_v2 %>% select(!c(ride_length_secs, ride_length_total ,started_at, start_date, weekday, rideable_type)) %>% tbl_summary(by = member_casual)

Characteristic	casual, N = 298,771¹	member, N = 583,860¹
weekday.
Sun	57,018 (19%)	64,549 (11%)
Mon	29,313 (9.8%)	79,895 (14%)
Tue	32,453 (11%)	96,841 (17%)
Wed	33,402 (11%)	96,161 (16%)
Thu	29,601 (9.9%)	81,186 (14%)
Fri	44,340 (15%)	85,446 (15%)
Sat	72,644 (24%)	79,782 (14%)
¹ n (%)

MEMBER Vs CASUAL OCT TO DEC RIDEABLE TYPE.

oct_to_dec_v2 %>% 
  group_by(member_casual, rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, rideable_type)  %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = member_casual)) +
  scale_fill_brewer(palette = "Accent")+
  labs(title = "October to December 2021 Rideable Type.",
       x = "Rideable Type",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

SUMMARY MEMBER Vs CASUAL OCT TO DEC RIDEABLE TYPE.

oct_to_dec_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, weekday.)) %>% tbl_summary(by = member_casual)

Characteristic	casual, N = 298,771¹	member, N = 583,860¹
rideable_type
classic_bike	154,033 (52%)	398,720 (68%)
docked_bike	34,661 (12%)	0 (0%)
electric_bike	110,077 (37%)	185,140 (32%)
¹ n (%)

RIDEABLE TYPE OCT TO DEC DAILY TOTALS.

oct_to_dec_v2 %>% 
  group_by(weekday., rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Accent")+
  facet_wrap(~rideable_type)+
  labs(title = "Rideable Type October to December 2021 Daily Totals.",
       x = "Day Of Week",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'weekday.'. You can override using the
## `.groups` argument.

RIDEABLE TYPE OCT TO DEC DAILY TOTALS.

oct_to_dec_v2 %>% 
  group_by(weekday., rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Accent")+
  labs(title = "Rideable Type October to December 2021 Daily Totals.",
       x = "Day Of Week",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'weekday.'. You can override using the
## `.groups` argument.

SUMMARY RIDEABLE TYPE OCT TO DEC DAILY TOTALS.

oct_to_dec_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, member_casual )) %>% tbl_summary(by = rideable_type)

Characteristic	classic_bike, N = 552,753¹	docked_bike, N = 34,661¹	electric_bike, N = 295,217¹
weekday.
Sun	78,780 (14%)	8,195 (24%)	34,592 (12%)
Mon	68,928 (12%)	3,296 (9.5%)	36,984 (13%)
Tue	81,113 (15%)	2,835 (8.2%)	45,346 (15%)
Wed	80,269 (15%)	2,941 (8.5%)	46,353 (16%)
Thu	67,163 (12%)	2,536 (7.3%)	41,088 (14%)
Fri	80,369 (15%)	4,895 (14%)	44,522 (15%)
Sat	96,131 (17%)	9,963 (29%)	46,332 (16%)
¹ n (%)

RIDEABLE TYPE OCT TO DEC TOTALS.

oct_to_dec_v2 %>% 
  group_by(rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(rideable_type)  %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Accent")+
  labs(title = "Rideable Type October to December 2021 Totals.",
       x = "Rideable Type",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

SUMMARY RIDEABLE TYPE OCT TO DEC TOTALS.

oct_to_dec_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, weekday., member_casual)) %>% tbl_summary()

Characteristic	N = 882,631¹
rideable_type
classic_bike	552,753 (63%)
docked_bike	34,661 (3.9%)
electric_bike	295,217 (33%)
¹ n (%)

MORE TO LEARN

SESSION INFORMATION

sessionInfo()

## R version 4.2.3 (2023-03-15 ucrt)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 22621)
## 
## Matrix products: default
## 
## locale:
## [1] LC_COLLATE=English_United Kingdom.utf8 
## [2] LC_CTYPE=English_United Kingdom.utf8   
## [3] LC_MONETARY=English_United Kingdom.utf8
## [4] LC_NUMERIC=C                           
## [5] LC_TIME=English_United Kingdom.utf8    
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] ggthemes_4.2.4     RColorBrewer_1.1-3 scales_1.2.1       gtsummary_1.7.1   
##  [5] conflicted_1.2.0   janitor_2.2.0      skimr_2.1.5        here_1.0.1        
##  [9] hms_1.1.3          data.table_1.14.8  lubridate_1.9.2    forcats_1.0.0     
## [13] stringr_1.5.0      dplyr_1.1.2        purrr_1.0.1        readr_2.1.4       
## [17] tidyr_1.3.0        tibble_3.2.1       ggplot2_3.4.2      tidyverse_2.0.0   
## 
## loaded via a namespace (and not attached):
##  [1] rprojroot_2.0.3      digest_0.6.29        utf8_1.2.2          
##  [4] R6_2.5.1             repr_1.1.6           evaluate_0.16       
##  [7] highr_0.9            pillar_1.9.0         rlang_1.1.0         
## [10] rstudioapi_0.14      jquerylib_0.1.4      rmarkdown_2.22      
## [13] labeling_0.4.2       munsell_0.5.0        compiler_4.2.3      
## [16] xfun_0.38            pkgconfig_2.0.3      base64enc_0.1-3     
## [19] htmltools_0.5.5      tidyselect_1.2.0     fansi_1.0.3         
## [22] crayon_1.5.1         tzdb_0.3.0           withr_2.5.0         
## [25] commonmark_1.9.0     grid_4.2.3           jsonlite_1.8.4      
## [28] gtable_0.3.0         lifecycle_1.0.3      magrittr_2.0.3      
## [31] cli_3.6.1            stringi_1.7.8        cachem_1.0.6        
## [34] farver_2.1.1         broom.helpers_1.13.0 snakecase_0.11.0    
## [37] xml2_1.3.3           bslib_0.4.0          generics_0.1.3      
## [40] vctrs_0.6.1          tools_4.2.3          glue_1.6.2          
## [43] markdown_1.5         fastmap_1.1.0        yaml_2.3.5          
## [46] timechange_0.1.1     colorspace_2.0-3     gt_0.9.0            
## [49] memoise_2.0.1        knitr_1.39           sass_0.4.6

CYCLISTIC BIKES OCT TO DEC 2021

Stephen Williams

2023-07-01

SETTING UP ENVIRONMENT.

INSTALL PACKAGES.

SCIENTIFIC NOTATION RUINING YOUR GGPLOT CHARTS? TRY THE LINE OF CODE BELOW

USE ‘getwd()’ FUNCTION TO DISPLAY WORKING DIRECTORY.

USE ‘setwd()’ FUNCTION TO SET WORKING DIRECTORY TO SIMPLIFY CALLS TO DATA.

USE ‘spec_csv()’ FUNCTION TO CHECK THE DATA TYPES BEFORE READING THE DATA.

NOTICE ‘started_at’ AND ‘ended_at’ COLUMNS ARE ‘datetime’ DATA TYPE.

UPLOAD DATASETS divvy-trip-data.csv FILES.

USE ‘bind_rows()’ FUNCTION TO STACK DATA FRAMES INTO ONE BIG DATA FRAME.

CHECK COLUMNS.

USE ‘glimpse()’ FUNCTION TO GET A BETTER UNDERSTANDING OF THE DATA.

Rows: 1,238,744 Columns: 13

COLUMNS ‘started_at’ AND ‘ended_at’ ARE NOW ‘character’ DATA TYPE.

COLUMNS ‘end_station_name’ AND ‘end_station_id’ HAVE BLANK ROWS THAT NEED TO BE REMOVED.

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘data.frame’: 1238744 obs. of 13 variables:

USE TIDYR TO SEPARATE “started_at” COLUMN TO A NEW COLUMN CALLED “start_date” and “start_time”.

USE TIDYR TO SEPARATE “ended_at” COLUMN TO A NEW COLUMN CALLED “end_date” and “end_time”.

CHECK NEW COLUMNS.

‘data.frame’: 1238744 obs. of 17 variables:

EXPLORE AND MANIPULATE DATA FRAME OCT TO DEC.

COLUMN RIDEABLE TYPE.

EXPLORE CHARACTER VARIABLE TYPE IN “rideable_type” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

BAR PLOT OF DATA DISTRIBUTION OF ‘rideable_type’ COLUMN.

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE RIDEABLE TYPE IS NOW A FACTOR.

COLUMN STARTED_AT AND ENDED_AT.

EXPLORE…CHARACTER VARIABLE TYPE IN “started_at” AND ended_at” COLUMN.

DATA TYPE IN COLUMN “started_at” AND “end_at” WAS DATETIME BEFORE UPLOADING.

CONVERT “started_at” AND “ended_at” COLUMN FROM CHARACTER TO DATETIME

CONVERT “start_date” COLUMN FROM CHARACTER TO DATE FORMAT.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

CONVERT “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘started_at’AND ’ended_at’ CHARACTER DATA TYPE IS NOW POSIXlt.

‘data.frame’: 1238744 obs. of 17 variables:

COLUMN START_STATION_NAME START_STATION_ID END_STATION_NAME AND END_STATION_ID.

EXPLORE…CHARACTER VARIABLE TYPE IN “start_staion_name” AND “end_staion_name”

REPLACE ALL BLANK VALUES IN “start_station_name” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “start_station_id” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “end_station_name” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “end_station_id” COLUMN WITH NA VALUES.

REMOVE ROWS WITH NA VALUES IN ALL COLUMNS.

‘data.frame’: 910247 obs. of 17 variables:

COLUMN MEMBER_CASUAL.

EXPLORE CHARACTER VARIABLE TYPE IN “member_casual” COLUMN.

USE ‘unique()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

BAR PLOT OF DATA DISTRIBUTION OF ‘member_casual’ COLUMN.

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE MEMBER CASUAL IS NOW A FACTOR.

ADD A CALCULATED FIELD FOR NEW COLUMN “ride_length_secs”.

CHECK DATA TYPE.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

CONVERT “ride_length_secs” FROM DIFFTIME TO NUMERIC TO RUN CALCULATIONS ON THE DATA.

CHECK DATA TYPE.

CREATE NEW COLUMN “ride_length_total” USING MUTATE FUNCTION.

CHECK DATA TYPE.

ADD COLUMN FOR DAY OF WEEK.

NUMERIC VALUE DAY OF WEEK SUNDAY = 1 MONDAY = 2 TUESDAY = 3 ETC, ETC…

CHARACTER DAY OF WEEK USING ABBREVIATED LABELS MON,TUE,WED ETC ETC…

CHANGE ‘weekday’ DATA TYPE.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE WEEKDAY. IS AN ORDERED FACTOR.

EXPLORE NUMERIC VARIABLE TYPE IN “weekday” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘summary()’ FUNCTION TO SUMMARIZE VALUES IN DATA FRAME.

BOX PLOT AKA IS A GRAPHICAL REPRESENTATION TO SUMMARIZE DATA AND IDENTIFY OUTLIERS.