CYCLISTIC BIKES JUL TO SEP 2021

SETTING UP ENVIRONMENT.

INSTALL PACKAGES.

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(data.table)

## 
## Attaching package: 'data.table'
## 
## The following objects are masked from 'package:lubridate':
## 
##     hour, isoweek, mday, minute, month, quarter, second, wday, week,
##     yday, year
## 
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
## 
## The following object is masked from 'package:purrr':
## 
##     transpose

library(hms)

## 
## Attaching package: 'hms'
## 
## The following object is masked from 'package:lubridate':
## 
##     hms

library(here)

## here() starts at C:/Users/SWill/Documents/JUL TO SEP CYCLISTIC BIKES

library(skimr)
library(janitor)

## 
## Attaching package: 'janitor'
## 
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

library(conflicted)
library(gtsummary)
library(scales)
library(RColorBrewer)
library(ggthemes)

SCIENTIFIC NOTATION RUINING YOUR GGPLOT CHARTS? TRY THE LINE OF CODE BELOW.

options(scipen = 999)

USE ‘getwd()’ FUNCTION TO DISPLAY WORKING DIRECTORY.

getwd()

## [1] "C:/Users/SWill/Documents/JUL TO SEP CYCLISTIC BIKES"

USE ‘setwd()’ FUNCTION TO SET WORKING DIRECTORY TO SIMPLIFY CALLS TO DATA.

setwd("C:/Users/SWill/Documents/JUL TO SEP CYCLISTIC BIKES")

USE ‘spec_csv()’ FUNCTION TO CHECK THE DATA TYPES BEFORE READING THE DATA.

NOTICE ‘started_at’ AND ‘ended_at’ COLUMNS ARE ‘datetime’ DATA TYPE.

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202107-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202108-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202109-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

UPLOAD DATASETS divvy-trip-data.csv FILES.

df_07 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202107-divvy-tripdata.csv")
df_08 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202108-divvy-tripdata.csv")
df_09 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202109-divvy-tripdata.csv")

USE ‘bind_rows()’ FUNCTION TO STACK DATA FRAMES INTO ONE BIG DATA FRAME.

jul_to_sep <- bind_rows(df_07,df_08,df_09)

CHECK COLUMNS.

colnames(jul_to_sep)

##  [1] "ride_id"            "rideable_type"      "started_at"        
##  [4] "ended_at"           "start_station_name" "start_station_id"  
##  [7] "end_station_name"   "end_station_id"     "start_lat"         
## [10] "start_lng"          "end_lat"            "end_lng"           
## [13] "member_casual"

USE ‘glimpse()’ FUNCTION TO GET A BETTER UNDERSTANDING OF THE DATA.

Rows: 2,382,909 Columns: 13

COLUMNS ‘started_at’ AND ‘ended_at’ ARE NOW ‘character’ DATA TYPE.

COLUMNS ‘end_station_name’ AND ‘end_station_id’ HAVE BLANK ROWS THAT NEED TO BE REMOVED.

glimpse(jul_to_sep)

## Rows: 2,382,909
## Columns: 13
## $ ride_id            <chr> "0A1B623926EF4E16", "B2D5583A5A5E76EE", "6F264597DD…
## $ rideable_type      <chr> "docked_bike", "classic_bike", "classic_bike", "cla…
## $ started_at         <chr> "2021-07-02 14:44:36", "2021-07-07 16:57:42", "2021…
## $ ended_at           <chr> "2021-07-02 15:19:58", "2021-07-07 17:16:09", "2021…
## $ start_station_name <chr> "Michigan Ave & Washington St", "California Ave & C…
## $ start_station_id   <chr> "13001", "17660", "SL-012", "17660", "17660", "1766…
## $ end_station_name   <chr> "Halsted St & North Branch St", "Wood St & Hubbard …
## $ end_station_id     <chr> "KA1504000117", "13432", "KA1503000044", "13196", "…
## $ start_lat          <dbl> 41.88398, 41.90036, 41.86038, 41.90036, 41.90035, 4…
## $ start_lng          <dbl> -87.62468, -87.69670, -87.62581, -87.69670, -87.696…
## $ end_lat            <dbl> 41.89937, 41.88990, 41.89017, 41.89456, 41.88659, 4…
## $ end_lng            <dbl> -87.64848, -87.67147, -87.62619, -87.65345, -87.658…
## $ member_casual      <chr> "casual", "casual", "member", "member", "casual", "…

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘data.frame’: 2382909 obs. of 13 variables:

str(jul_to_sep)

## 'data.frame':    2382909 obs. of  13 variables:
##  $ ride_id           : chr  "0A1B623926EF4E16" "B2D5583A5A5E76EE" "6F264597DDBF427A" "379B58EAB20E8AA5" ...
##  $ rideable_type     : chr  "docked_bike" "classic_bike" "classic_bike" "classic_bike" ...
##  $ started_at        : chr  "2021-07-02 14:44:36" "2021-07-07 16:57:42" "2021-07-25 11:30:55" "2021-07-08 22:08:30" ...
##  $ ended_at          : chr  "2021-07-02 15:19:58" "2021-07-07 17:16:09" "2021-07-25 11:48:45" "2021-07-08 22:23:32" ...
##  $ start_station_name: chr  "Michigan Ave & Washington St" "California Ave & Cortez St" "Wabash Ave & 16th St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "13001" "17660" "SL-012" "17660" ...
##  $ end_station_name  : chr  "Halsted St & North Branch St" "Wood St & Hubbard St" "Rush St & Hubbard St" "Carpenter St & Huron St" ...
##  $ end_station_id    : chr  "KA1504000117" "13432" "KA1503000044" "13196" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ member_casual     : chr  "casual" "casual" "member" "member" ...

USE TIDYR TO SEPARATE “started_at” COLUMN TO A NEW COLUMN CALLED “start_date” and “start_time”.

USE TIDYR TO SEPARATE “ended_at” COLUMN TO A NEW COLUMN CALLED “end_date” and “end_time”.

jul_to_sep <- tidyr::separate(jul_to_sep, started_at, c("start_date", "start_time"), sep = " ", remove = FALSE)
jul_to_sep <- tidyr::separate(jul_to_sep, ended_at, c("end_date", "end_time"), sep = " ", remove = FALSE)

CHECK NEW COLUMNS.

colnames(jul_to_sep)

##  [1] "ride_id"            "rideable_type"      "started_at"        
##  [4] "start_date"         "start_time"         "ended_at"          
##  [7] "end_date"           "end_time"           "start_station_name"
## [10] "start_station_id"   "end_station_name"   "end_station_id"    
## [13] "start_lat"          "start_lng"          "end_lat"           
## [16] "end_lng"            "member_casual"

‘data.frame’: 2382909 obs. of 17 variables:

str(jul_to_sep)

## 'data.frame':    2382909 obs. of  17 variables:
##  $ ride_id           : chr  "0A1B623926EF4E16" "B2D5583A5A5E76EE" "6F264597DDBF427A" "379B58EAB20E8AA5" ...
##  $ rideable_type     : chr  "docked_bike" "classic_bike" "classic_bike" "classic_bike" ...
##  $ started_at        : chr  "2021-07-02 14:44:36" "2021-07-07 16:57:42" "2021-07-25 11:30:55" "2021-07-08 22:08:30" ...
##  $ start_date        : chr  "2021-07-02" "2021-07-07" "2021-07-25" "2021-07-08" ...
##  $ start_time        : chr  "14:44:36" "16:57:42" "11:30:55" "22:08:30" ...
##  $ ended_at          : chr  "2021-07-02 15:19:58" "2021-07-07 17:16:09" "2021-07-25 11:48:45" "2021-07-08 22:23:32" ...
##  $ end_date          : chr  "2021-07-02" "2021-07-07" "2021-07-25" "2021-07-08" ...
##  $ end_time          : chr  "15:19:58" "17:16:09" "11:48:45" "22:23:32" ...
##  $ start_station_name: chr  "Michigan Ave & Washington St" "California Ave & Cortez St" "Wabash Ave & 16th St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "13001" "17660" "SL-012" "17660" ...
##  $ end_station_name  : chr  "Halsted St & North Branch St" "Wood St & Hubbard St" "Rush St & Hubbard St" "Carpenter St & Huron St" ...
##  $ end_station_id    : chr  "KA1504000117" "13432" "KA1503000044" "13196" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ member_casual     : chr  "casual" "casual" "member" "member" ...

EXPLORE AND MANIPULATE DATA FRAME JUL TO SEP.

COLUMN RIDEABLE TYPE.

EXPLORE CHARACTER VARIABLE TYPE IN “rideable_type” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$rideable_type)

## [1] "character"

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

unique(jul_to_sep$rideable_type)

## [1] "docked_bike"   "classic_bike"  "electric_bike"

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

table(jul_to_sep$rideable_type)

## 
##  classic_bike   docked_bike electric_bike 
##       1472226        138100        772583

sort(table(jul_to_sep$rideable_type), decreasing = TRUE)

## 
##  classic_bike electric_bike   docked_bike 
##       1472226        772583        138100

BAR PLOT OF DATA DISTRIBUTION OF ‘rideable_type’ COLUMN.

barplot(sort(table(jul_to_sep$rideable_type), decreasing = TRUE))

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

jul_to_sep$rideable_type <- as.factor(jul_to_sep$rideable_type)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$rideable_type)

## [1] "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(jul_to_sep$rideable_type)

## [1] "classic_bike"  "docked_bike"   "electric_bike"

NOTE RIDEABLE TYPE IS NOW A FACTOR.

glimpse(jul_to_sep)

## Rows: 2,382,909
## Columns: 17
## $ ride_id            <chr> "0A1B623926EF4E16", "B2D5583A5A5E76EE", "6F264597DD…
## $ rideable_type      <fct> docked_bike, classic_bike, classic_bike, classic_bi…
## $ started_at         <chr> "2021-07-02 14:44:36", "2021-07-07 16:57:42", "2021…
## $ start_date         <chr> "2021-07-02", "2021-07-07", "2021-07-25", "2021-07-…
## $ start_time         <chr> "14:44:36", "16:57:42", "11:30:55", "22:08:30", "16…
## $ ended_at           <chr> "2021-07-02 15:19:58", "2021-07-07 17:16:09", "2021…
## $ end_date           <chr> "2021-07-02", "2021-07-07", "2021-07-25", "2021-07-…
## $ end_time           <chr> "15:19:58", "17:16:09", "11:48:45", "22:23:32", "16…
## $ start_station_name <chr> "Michigan Ave & Washington St", "California Ave & C…
## $ start_station_id   <chr> "13001", "17660", "SL-012", "17660", "17660", "1766…
## $ end_station_name   <chr> "Halsted St & North Branch St", "Wood St & Hubbard …
## $ end_station_id     <chr> "KA1504000117", "13432", "KA1503000044", "13196", "…
## $ start_lat          <dbl> 41.88398, 41.90036, 41.86038, 41.90036, 41.90035, 4…
## $ start_lng          <dbl> -87.62468, -87.69670, -87.62581, -87.69670, -87.696…
## $ end_lat            <dbl> 41.89937, 41.88990, 41.89017, 41.89456, 41.88659, 4…
## $ end_lng            <dbl> -87.64848, -87.67147, -87.62619, -87.65345, -87.658…
## $ member_casual      <chr> "casual", "casual", "member", "member", "casual", "…

COLUMN STARTED_AT AND ENDED_AT.

EXPLORE CHARACTER VARIABLE TYPE IN “started_at” AND ended_at” COLUMN.

DATA TYPE IN COLUMN “started_at” AND “end_at” WAS DATETIME BEFORE UPLOADING.

CONVERT “started_at” AND “ended_at” COLUMN FROM CHARACTER TO DATETIME.

jul_to_sep$started_at <- as.POSIXlt(jul_to_sep$started_at, format="%Y-%m-%d %H:%M:%S", tz="UTC")
jul_to_sep$ended_at <- as.POSIXlt(jul_to_sep$ended_at, format="%Y-%m-%d %H:%M:%S", tz="UTC")

CONVERT “start_date” AND “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

jul_to_sep$start_date <- as.POSIXlt(jul_to_sep$start_date)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$start_date)

## [1] "POSIXlt" "POSIXt"

CONVERT “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

jul_to_sep$end_date <- as.POSIXlt(jul_to_sep$end_date)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$end_date)

## [1] "POSIXlt" "POSIXt"

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘started_at’AND ’ended_at’ CHARACTER DATA TYPE IS NOW POSIXlt.

str(jul_to_sep)

## 'data.frame':    2382909 obs. of  17 variables:
##  $ ride_id           : chr  "0A1B623926EF4E16" "B2D5583A5A5E76EE" "6F264597DDBF427A" "379B58EAB20E8AA5" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 1 1 3 3 1 1 1 1 ...
##  $ started_at        : POSIXlt, format: "2021-07-02 14:44:36" "2021-07-07 16:57:42" ...
##  $ start_date        : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ start_time        : chr  "14:44:36" "16:57:42" "11:30:55" "22:08:30" ...
##  $ ended_at          : POSIXlt, format: "2021-07-02 15:19:58" "2021-07-07 17:16:09" ...
##  $ end_date          : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ end_time          : chr  "15:19:58" "17:16:09" "11:48:45" "22:23:32" ...
##  $ start_station_name: chr  "Michigan Ave & Washington St" "California Ave & Cortez St" "Wabash Ave & 16th St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "13001" "17660" "SL-012" "17660" ...
##  $ end_station_name  : chr  "Halsted St & North Branch St" "Wood St & Hubbard St" "Rush St & Hubbard St" "Carpenter St & Huron St" ...
##  $ end_station_id    : chr  "KA1504000117" "13432" "KA1503000044" "13196" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ member_casual     : chr  "casual" "casual" "member" "member" ...

COLUMN START_STATION_NAME START_STATION_ID END_STATION_NAME AND END_STATION_ID.

EXPLORE…CHARACTER VARIABLE TYPE IN “start_staion_name” AND “end_staion_name”

REPLACE ALL BLANK VALUES IN “start_station_name” COLUMN WITH NA VALUES.

jul_to_sep$start_station_name[jul_to_sep$start_station_name==""] <- NA

REPLACE ALL BLANK VALUES IN “start_station_id” COLUMN WITH NA VALUES.

jul_to_sep$start_station_id[jul_to_sep$start_station_id==""] <- NA

REPLACE ALL BLANK VALUES IN “end_station_name” COLUMN WITH NA VALUES.

jul_to_sep$end_station_name[jul_to_sep$end_station_name==""] <- NA

REPLACE ALL BLANK VALUES IN “end_station_id” COLUMN WITH NA VALUES.

jul_to_sep$end_station_id[jul_to_sep$end_station_id==""] <- NA

glimpse(jul_to_sep)

## Rows: 2,382,909
## Columns: 17
## $ ride_id            <chr> "0A1B623926EF4E16", "B2D5583A5A5E76EE", "6F264597DD…
## $ rideable_type      <fct> docked_bike, classic_bike, classic_bike, classic_bi…
## $ started_at         <dttm> 2021-07-02 14:44:36, 2021-07-07 16:57:42, 2021-07-…
## $ start_date         <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ start_time         <chr> "14:44:36", "16:57:42", "11:30:55", "22:08:30", "16…
## $ ended_at           <dttm> 2021-07-02 15:19:58, 2021-07-07 17:16:09, 2021-07-…
## $ end_date           <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ end_time           <chr> "15:19:58", "17:16:09", "11:48:45", "22:23:32", "16…
## $ start_station_name <chr> "Michigan Ave & Washington St", "California Ave & C…
## $ start_station_id   <chr> "13001", "17660", "SL-012", "17660", "17660", "1766…
## $ end_station_name   <chr> "Halsted St & North Branch St", "Wood St & Hubbard …
## $ end_station_id     <chr> "KA1504000117", "13432", "KA1503000044", "13196", "…
## $ start_lat          <dbl> 41.88398, 41.90036, 41.86038, 41.90036, 41.90035, 4…
## $ start_lng          <dbl> -87.62468, -87.69670, -87.62581, -87.69670, -87.696…
## $ end_lat            <dbl> 41.89937, 41.88990, 41.89017, 41.89456, 41.88659, 4…
## $ end_lng            <dbl> -87.64848, -87.67147, -87.62619, -87.65345, -87.658…
## $ member_casual      <chr> "casual", "casual", "member", "member", "casual", "…

REMOVE ROWS WITH NA VALUES IN ALL COLUMNS.

jul_to_sep <- jul_to_sep %>% drop_na()

‘data.frame’: 1987880 obs. of 17 variables:

str(jul_to_sep)

## 'data.frame':    1987880 obs. of  17 variables:
##  $ ride_id           : chr  "0A1B623926EF4E16" "B2D5583A5A5E76EE" "6F264597DDBF427A" "379B58EAB20E8AA5" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 1 1 3 3 1 1 1 1 ...
##  $ started_at        : POSIXlt, format: "2021-07-02 14:44:36" "2021-07-07 16:57:42" ...
##  $ start_date        : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ start_time        : chr  "14:44:36" "16:57:42" "11:30:55" "22:08:30" ...
##  $ ended_at          : POSIXlt, format: "2021-07-02 15:19:58" "2021-07-07 17:16:09" ...
##  $ end_date          : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ end_time          : chr  "15:19:58" "17:16:09" "11:48:45" "22:23:32" ...
##  $ start_station_name: chr  "Michigan Ave & Washington St" "California Ave & Cortez St" "Wabash Ave & 16th St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "13001" "17660" "SL-012" "17660" ...
##  $ end_station_name  : chr  "Halsted St & North Branch St" "Wood St & Hubbard St" "Rush St & Hubbard St" "Carpenter St & Huron St" ...
##  $ end_station_id    : chr  "KA1504000117" "13432" "KA1503000044" "13196" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ member_casual     : chr  "casual" "casual" "member" "member" ...

COLUMN MEMBER_CASUAL.

EXPLORE…CHARACTER VARIABLE TYPE IN “member_casual” COLUMN.

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

unique(jul_to_sep$member_casual)

## [1] "casual" "member"

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

table(jul_to_sep$member_casual)

## 
##  casual  member 
## 1003822  984058

sort(table(jul_to_sep$member_casual), decreasing = TRUE)

## 
##  casual  member 
## 1003822  984058

BAR PLOT OF DATA DISTRIBUTION OF ‘member_casual’ COLUMN.

barplot(sort(table(jul_to_sep$member_casual), decreasing = TRUE))

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

jul_to_sep$member_casual <- as.factor(jul_to_sep$member_casual)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$member_casual)

## [1] "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(jul_to_sep$member_casual)

## [1] "casual" "member"

NOTE MEMBER CASUAL IS NOW A FACTOR.

glimpse(jul_to_sep)

## Rows: 1,987,880
## Columns: 17
## $ ride_id            <chr> "0A1B623926EF4E16", "B2D5583A5A5E76EE", "6F264597DD…
## $ rideable_type      <fct> docked_bike, classic_bike, classic_bike, classic_bi…
## $ started_at         <dttm> 2021-07-02 14:44:36, 2021-07-07 16:57:42, 2021-07-…
## $ start_date         <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ start_time         <chr> "14:44:36", "16:57:42", "11:30:55", "22:08:30", "16…
## $ ended_at           <dttm> 2021-07-02 15:19:58, 2021-07-07 17:16:09, 2021-07-…
## $ end_date           <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ end_time           <chr> "15:19:58", "17:16:09", "11:48:45", "22:23:32", "16…
## $ start_station_name <chr> "Michigan Ave & Washington St", "California Ave & C…
## $ start_station_id   <chr> "13001", "17660", "SL-012", "17660", "17660", "1766…
## $ end_station_name   <chr> "Halsted St & North Branch St", "Wood St & Hubbard …
## $ end_station_id     <chr> "KA1504000117", "13432", "KA1503000044", "13196", "…
## $ start_lat          <dbl> 41.88398, 41.90036, 41.86038, 41.90036, 41.90035, 4…
## $ start_lng          <dbl> -87.62468, -87.69670, -87.62581, -87.69670, -87.696…
## $ end_lat            <dbl> 41.89937, 41.88990, 41.89017, 41.89456, 41.88659, 4…
## $ end_lng            <dbl> -87.64848, -87.67147, -87.62619, -87.65345, -87.658…
## $ member_casual      <fct> casual, casual, member, member, casual, casual, cas…

ADD A CALCULATED FIELD FOR NEW COLUMN “ride_length_secs”

jul_to_sep$ride_length_secs <- difftime(jul_to_sep$ended_at,jul_to_sep$started_at)

CHECK DATA TYPE.

is.numeric(jul_to_sep$ride_length_secs)

## [1] FALSE

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$ride_length_secs)

## [1] "difftime"

CONVERT “ride_length_secs” FROM DIFFTIME TO NUMERIC TO RUN CALCULATIONS ON THE DATA.

jul_to_sep$ride_length_secs <- as.numeric(as.character(jul_to_sep$ride_length_secs))

CHECK DATA TYPE.

is.numeric(jul_to_sep$ride_length_secs)

## [1] TRUE

CREATE NEW COLUMN “ride_length_total” USING MUTATE FUNCTION.

jul_to_sep <- mutate(jul_to_sep, ride_length_total = ride_length_secs/60)

CHECK DATA TYPE.

is.numeric(jul_to_sep$ride_length_total)

## [1] TRUE

ADD COLUMN FOR DAY OF WEEK.

NUMERIC VALUE DAY OF WEEK SUNDAY = 1 MONDAY = 2 TUESDAY = 3 ETC, ETC…

jul_to_sep$weekday <- lubridate::wday(jul_to_sep$start_date)

CHARACTER DAY OF WEEK USING ABBREVIATED LABELS MON,TUE,WED ETC ETC…

jul_to_sep$weekday. <- lubridate::wday(jul_to_sep$start_date, label = TRUE)

CHANGE ‘weekday’ DATA TYPE.

jul_to_sep$weekday. <- as.factor(jul_to_sep$weekday.)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$weekday.)

## [1] "ordered" "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(jul_to_sep$weekday.)

## [1] "Sun" "Mon" "Tue" "Wed" "Thu" "Fri" "Sat"

NOTE WEEKDAY. IS AN ORDERED FACTOR.

glimpse(jul_to_sep)

## Rows: 1,987,880
## Columns: 21
## $ ride_id            <chr> "0A1B623926EF4E16", "B2D5583A5A5E76EE", "6F264597DD…
## $ rideable_type      <fct> docked_bike, classic_bike, classic_bike, classic_bi…
## $ started_at         <dttm> 2021-07-02 14:44:36, 2021-07-07 16:57:42, 2021-07-…
## $ start_date         <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ start_time         <chr> "14:44:36", "16:57:42", "11:30:55", "22:08:30", "16…
## $ ended_at           <dttm> 2021-07-02 15:19:58, 2021-07-07 17:16:09, 2021-07-…
## $ end_date           <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ end_time           <chr> "15:19:58", "17:16:09", "11:48:45", "22:23:32", "16…
## $ start_station_name <chr> "Michigan Ave & Washington St", "California Ave & C…
## $ start_station_id   <chr> "13001", "17660", "SL-012", "17660", "17660", "1766…
## $ end_station_name   <chr> "Halsted St & North Branch St", "Wood St & Hubbard …
## $ end_station_id     <chr> "KA1504000117", "13432", "KA1503000044", "13196", "…
## $ start_lat          <dbl> 41.88398, 41.90036, 41.86038, 41.90036, 41.90035, 4…
## $ start_lng          <dbl> -87.62468, -87.69670, -87.62581, -87.69670, -87.696…
## $ end_lat            <dbl> 41.89937, 41.88990, 41.89017, 41.89456, 41.88659, 4…
## $ end_lng            <dbl> -87.64848, -87.67147, -87.62619, -87.65345, -87.658…
## $ member_casual      <fct> casual, casual, member, member, casual, casual, cas…
## $ ride_length_secs   <dbl> 2122, 1107, 1070, 902, 1143, 352, 718, 485, 1199, 8…
## $ ride_length_total  <dbl> 35.366667, 18.450000, 17.833333, 15.033333, 19.0500…
## $ weekday            <dbl> 6, 4, 1, 5, 4, 5, 4, 7, 6, 5, 2, 2, 6, 2, 4, 5, 6, …
## $ weekday.           <ord> Fri, Wed, Sun, Thu, Wed, Thu, Wed, Sat, Fri, Thu, M…

EXPLORE NUMERIC VARIABLE TYPE IN “weekday” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jul_to_sep$weekday)

## [1] "numeric"

USE ‘summary()’ FUNCTION TO SUMMARIZE VALUES IN DATA FRAME.

summary(jul_to_sep$weekday)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   4.000   4.138   6.000   7.000

BOX PLOT IS A GRAPHICAL REPRESENTATION TO SUMMARIZE DATA AND IDENTIFY OUTLIERS.

boxplot(jul_to_sep$weekday, col = 'violet')

HISTOGRAM TO VISUALIZE DISTRIBUTION OF VALUES IN WEEKDAY COLUMN.

hist(jul_to_sep$weekday, col='coral')

NOTE WEEKDAY IS NOW A ‘dbl’.

glimpse(jul_to_sep)

## Rows: 1,987,880
## Columns: 21
## $ ride_id            <chr> "0A1B623926EF4E16", "B2D5583A5A5E76EE", "6F264597DD…
## $ rideable_type      <fct> docked_bike, classic_bike, classic_bike, classic_bi…
## $ started_at         <dttm> 2021-07-02 14:44:36, 2021-07-07 16:57:42, 2021-07-…
## $ start_date         <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ start_time         <chr> "14:44:36", "16:57:42", "11:30:55", "22:08:30", "16…
## $ ended_at           <dttm> 2021-07-02 15:19:58, 2021-07-07 17:16:09, 2021-07-…
## $ end_date           <dttm> 2021-07-02, 2021-07-07, 2021-07-25, 2021-07-08, 20…
## $ end_time           <chr> "15:19:58", "17:16:09", "11:48:45", "22:23:32", "16…
## $ start_station_name <chr> "Michigan Ave & Washington St", "California Ave & C…
## $ start_station_id   <chr> "13001", "17660", "SL-012", "17660", "17660", "1766…
## $ end_station_name   <chr> "Halsted St & North Branch St", "Wood St & Hubbard …
## $ end_station_id     <chr> "KA1504000117", "13432", "KA1503000044", "13196", "…
## $ start_lat          <dbl> 41.88398, 41.90036, 41.86038, 41.90036, 41.90035, 4…
## $ start_lng          <dbl> -87.62468, -87.69670, -87.62581, -87.69670, -87.696…
## $ end_lat            <dbl> 41.89937, 41.88990, 41.89017, 41.89456, 41.88659, 4…
## $ end_lng            <dbl> -87.64848, -87.67147, -87.62619, -87.65345, -87.658…
## $ member_casual      <fct> casual, casual, member, member, casual, casual, cas…
## $ ride_length_secs   <dbl> 2122, 1107, 1070, 902, 1143, 352, 718, 485, 1199, 8…
## $ ride_length_total  <dbl> 35.366667, 18.450000, 17.833333, 15.033333, 19.0500…
## $ weekday            <dbl> 6, 4, 1, 5, 4, 5, 4, 7, 6, 5, 2, 2, 6, 2, 4, 5, 6, …
## $ weekday.           <ord> Fri, Wed, Sun, Thu, Wed, Thu, Wed, Sat, Fri, Thu, M…

NOTE WEEKDAY IS NOW NUMERIC.

str(jul_to_sep)

## 'data.frame':    1987880 obs. of  21 variables:
##  $ ride_id           : chr  "0A1B623926EF4E16" "B2D5583A5A5E76EE" "6F264597DDBF427A" "379B58EAB20E8AA5" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 1 1 3 3 1 1 1 1 ...
##  $ started_at        : POSIXlt, format: "2021-07-02 14:44:36" "2021-07-07 16:57:42" ...
##  $ start_date        : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ start_time        : chr  "14:44:36" "16:57:42" "11:30:55" "22:08:30" ...
##  $ ended_at          : POSIXlt, format: "2021-07-02 15:19:58" "2021-07-07 17:16:09" ...
##  $ end_date          : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ end_time          : chr  "15:19:58" "17:16:09" "11:48:45" "22:23:32" ...
##  $ start_station_name: chr  "Michigan Ave & Washington St" "California Ave & Cortez St" "Wabash Ave & 16th St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "13001" "17660" "SL-012" "17660" ...
##  $ end_station_name  : chr  "Halsted St & North Branch St" "Wood St & Hubbard St" "Rush St & Hubbard St" "Carpenter St & Huron St" ...
##  $ end_station_id    : chr  "KA1504000117" "13432" "KA1503000044" "13196" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 1 1 2 2 1 1 1 1 2 2 ...
##  $ ride_length_secs  : num  2122 1107 1070 902 1143 ...
##  $ ride_length_total : num  35.4 18.4 17.8 15 19.1 ...
##  $ weekday           : num  6 4 1 5 4 5 4 7 6 5 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 6 4 1 5 4 5 4 7 6 5 ...

COLUMN RIDE_LENGTH_SECS

DELETE RIDES UNDER 2 MINUTES (> 120) 1940647 ROWS REMAIN.

jul_to_sep <- subset(jul_to_sep, ride_length_secs > 120)

‘data.frame’: 1940647 obs. of 21 variables:

str(jul_to_sep)

## 'data.frame':    1940647 obs. of  21 variables:
##  $ ride_id           : chr  "0A1B623926EF4E16" "B2D5583A5A5E76EE" "6F264597DDBF427A" "379B58EAB20E8AA5" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 1 1 3 3 1 1 1 1 ...
##  $ started_at        : POSIXlt, format: "2021-07-02 14:44:36" "2021-07-07 16:57:42" ...
##  $ start_date        : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ start_time        : chr  "14:44:36" "16:57:42" "11:30:55" "22:08:30" ...
##  $ ended_at          : POSIXlt, format: "2021-07-02 15:19:58" "2021-07-07 17:16:09" ...
##  $ end_date          : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ end_time          : chr  "15:19:58" "17:16:09" "11:48:45" "22:23:32" ...
##  $ start_station_name: chr  "Michigan Ave & Washington St" "California Ave & Cortez St" "Wabash Ave & 16th St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "13001" "17660" "SL-012" "17660" ...
##  $ end_station_name  : chr  "Halsted St & North Branch St" "Wood St & Hubbard St" "Rush St & Hubbard St" "Carpenter St & Huron St" ...
##  $ end_station_id    : chr  "KA1504000117" "13432" "KA1503000044" "13196" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 1 1 2 2 1 1 1 1 2 2 ...
##  $ ride_length_secs  : num  2122 1107 1070 902 1143 ...
##  $ ride_length_total : num  35.4 18.4 17.8 15 19.1 ...
##  $ weekday           : num  6 4 1 5 4 5 4 7 6 5 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 6 4 1 5 4 5 4 7 6 5 ...

DELETE RIDES OVER 24 HOURS (> 86400) 1940244 ROWS REMAIN.

jul_to_sep <- subset(jul_to_sep, ride_length_secs < 86400)

‘data.frame’: 1940244 obs. of 21 variables:

str(jul_to_sep)

## 'data.frame':    1940244 obs. of  21 variables:
##  $ ride_id           : chr  "0A1B623926EF4E16" "B2D5583A5A5E76EE" "6F264597DDBF427A" "379B58EAB20E8AA5" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 2 1 1 1 3 3 1 1 1 1 ...
##  $ started_at        : POSIXlt, format: "2021-07-02 14:44:36" "2021-07-07 16:57:42" ...
##  $ start_date        : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ start_time        : chr  "14:44:36" "16:57:42" "11:30:55" "22:08:30" ...
##  $ ended_at          : POSIXlt, format: "2021-07-02 15:19:58" "2021-07-07 17:16:09" ...
##  $ end_date          : POSIXlt, format: "2021-07-02" "2021-07-07" ...
##  $ end_time          : chr  "15:19:58" "17:16:09" "11:48:45" "22:23:32" ...
##  $ start_station_name: chr  "Michigan Ave & Washington St" "California Ave & Cortez St" "Wabash Ave & 16th St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "13001" "17660" "SL-012" "17660" ...
##  $ end_station_name  : chr  "Halsted St & North Branch St" "Wood St & Hubbard St" "Rush St & Hubbard St" "Carpenter St & Huron St" ...
##  $ end_station_id    : chr  "KA1504000117" "13432" "KA1503000044" "13196" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.6 -87.7 -87.6 -87.7 -87.7 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 1 1 2 2 1 1 1 1 2 2 ...
##  $ ride_length_secs  : num  2122 1107 1070 902 1143 ...
##  $ ride_length_total : num  35.4 18.4 17.8 15 19.1 ...
##  $ weekday           : num  6 4 1 5 4 5 4 7 6 5 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 6 4 1 5 4 5 4 7 6 5 ...

SORT DATA FRAME BY DATE AND TIMES.

jul_to_sep <- jul_to_sep %>% arrange(ymd_hms(jul_to_sep$started_at))

CREATE NEW DATA FRAME (jul_to_sep_v2) FROM DATA FRAME (jul_to_sep).

jul_to_sep_v2 <- jul_to_sep[c('rideable_type', 'started_at', 'start_date', 'member_casual', 'ride_length_secs', 'ride_length_total', 'weekday', 'weekday.')]

DESCRIPTIVE ANALYSIS ON RIDE LENGTH.

MINIMUM TRIP TIME.

min(jul_to_sep_v2$ride_length_secs)

## [1] 121

MIDDLE VALUE IN JUL TO SEP DATASET.

median(jul_to_sep_v2$ride_length_secs)

## [1] 787

MAXIMUM TRIP TIME.

max(jul_to_sep_v2$ride_length_secs)

## [1] 86362

AVERAGE TRIP.

mean(jul_to_sep_v2$ride_length_secs)

## [1] 1256.998

THE DIFFERENCE BETWEEN MAXIMUM AND MINIMUM TRIP.

range(jul_to_sep_v2$ride_length_secs)

## [1]   121 86362

DIFFERENCE BETWEEN THE FIRST QUARTILE AND THIRD QUARTILE OF JUL TO SEP.

IQR(jul_to_sep_v2$ride_length_secs)

## [1] 931

COMPARE MEMBERS AND CASUAL RIDERS.

MEMBERS Vs CASUAL MINIMUM TRIP TIME.

aggregate(jul_to_sep_v2$ride_length_secs ~ jul_to_sep_v2$member_casual, FUN = min)

##   jul_to_sep_v2$member_casual jul_to_sep_v2$ride_length_secs
## 1                      casual                            121
## 2                      member                            121

MEMBERS Vs CASUAL MIDDLE VALUE IN JUL TO SEP DATASET.

aggregate(jul_to_sep_v2$ride_length_secs ~ jul_to_sep_v2$member_casual, FUN = median)

##   jul_to_sep_v2$member_casual jul_to_sep_v2$ride_length_secs
## 1                      casual                           1006
## 2                      member                            622

MEMBERS Vs CASUAL MAXIMUM TRIP TIME.

aggregate(jul_to_sep_v2$ride_length_secs ~ jul_to_sep_v2$member_casual, FUN = max)

##   jul_to_sep_v2$member_casual jul_to_sep_v2$ride_length_secs
## 1                      casual                          86362
## 2                      member                          80861

MEMBERS Vs CASUAL AVERAGE TRIP.

aggregate(jul_to_sep_v2$ride_length_secs ~ jul_to_sep_v2$member_casual, FUN = mean)

##   jul_to_sep_v2$member_casual jul_to_sep_v2$ride_length_secs
## 1                      casual                      1667.5600
## 2                      member                       832.6465

AVERAGE RIDE TIME FOR EACH DAY FOR MEMBERS Vs CASUAL RIDERS.

aggregate(jul_to_sep_v2$ride_length_total ~ jul_to_sep_v2$member_casual + jul_to_sep_v2$weekday., FUN = mean)

##    jul_to_sep_v2$member_casual jul_to_sep_v2$weekday.
## 1                       casual                    Sun
## 2                       member                    Sun
## 3                       casual                    Mon
## 4                       member                    Mon
## 5                       casual                    Tue
## 6                       member                    Tue
## 7                       casual                    Wed
## 8                       member                    Wed
## 9                       casual                    Thu
## 10                      member                    Thu
## 11                      casual                    Fri
## 12                      member                    Fri
## 13                      casual                    Sat
## 14                      member                    Sat
##    jul_to_sep_v2$ride_length_total
## 1                         31.47539
## 2                         15.98895
## 3                         28.79893
## 4                         13.53092
## 5                         24.88202
## 6                         12.77747
## 7                         24.19613
## 8                         13.03934
## 9                         24.43612
## 10                        13.09269
## 11                        26.12585
## 12                        13.60772
## 13                        30.08967
## 14                        15.65941

jul_to_sep_v2 %>% 
  group_by(member_casual, weekday.) %>%  
  summarise(number_of_rides = n(),average_duration = mean(ride_length_total)) %>%       
  arrange(member_casual, weekday.)

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

## # A tibble: 14 × 4
## # Groups:   member_casual [2]
##    member_casual weekday. number_of_rides average_duration
##    <fct>         <ord>              <int>            <dbl>
##  1 casual        Sun               186951             31.5
##  2 casual        Mon               112942             28.8
##  3 casual        Tue                97025             24.9
##  4 casual        Wed               103621             24.2
##  5 casual        Thu               122207             24.4
##  6 casual        Fri               144202             26.1
##  7 casual        Sat               219196             30.1
##  8 member        Sun               116154             16.0
##  9 member        Mon               127806             13.5
## 10 member        Tue               138458             12.8
## 11 member        Wed               145550             13.0
## 12 member        Thu               156979             13.1
## 13 member        Fri               137994             13.6
## 14 member        Sat               131159             15.7

DATA VISUALIZATIONS AND SUMMARY.

COUNT ‘member_casual’ FOR PIE CHART.

CREATE DATA FRAME FOR PIE CHART.

MEMBER Vs CASUAL JUL TO SEP PIE CHART.

jul_to_sep_pi <- jul_to_sep_v2%>% 
  group_by(member_casual) %>% 
  summarise(number_of_rides = n())

jul_to_sep_pie <- data.frame(group = c("casual", "member"), value = c(986144, 954100))

ggplot(jul_to_sep_pie, aes(x = "", y = value, fill = group)) +
  geom_col(width = 1) +
  coord_polar("y") +
  geom_text(aes(label = round(value, 3)), position = position_stack(vjust = 0.5))+
  scale_fill_brewer(palette = "Spectral")+
  labs(title = "July to September Daily Totals")+
  theme_economist()

MEMBER Vs CASUAL JUL TO SEP DAILY TOTALS.

jul_to_sep_v2 %>% 
  group_by(member_casual, weekday.) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = member_casual)) +
  scale_fill_brewer(palette = "Spectral")+
  labs(title = "Member Vs Casual,July to September 2021 Daily Totals.",
       x = "Weekday",
       y = "Number of Rides")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

SUMMARY MEMBER Vs CASUAL JUL TO SEP DAILY TOTALS.

jul_to_sep_v2 %>% select(!c(ride_length_secs, ride_length_total ,started_at, start_date, weekday, rideable_type)) %>% tbl_summary(by = member_casual)

Characteristic	casual, N = 986,144¹	member, N = 954,100¹
weekday.
Sun	186,951 (19%)	116,154 (12%)
Mon	112,942 (11%)	127,806 (13%)
Tue	97,025 (9.8%)	138,458 (15%)
Wed	103,621 (11%)	145,550 (15%)
Thu	122,207 (12%)	156,979 (16%)
Fri	144,202 (15%)	137,994 (14%)
Sat	219,196 (22%)	131,159 (14%)
¹ n (%)

MEMBER Vs CASUAL JUL TO SEP RIDEABLE TYPE.

jul_to_sep_v2 %>% 
  group_by(member_casual, rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, rideable_type)  %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = member_casual)) +
  scale_fill_brewer(palette = "Spectral")+
  labs(title = "July to September 2021 Rideable Type.",
       x = "Rideable Type",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

SUMMARY MEMBER Vs CASUAL JUL TO SEP RIDEABLE TYPE.

jul_to_sep_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, weekday.)) %>% tbl_summary(by = member_casual)

Characteristic	casual, N = 986,144¹	member, N = 954,100¹
rideable_type
classic_bike	652,599 (66%)	780,193 (82%)
docked_bike	136,381 (14%)	0 (0%)
electric_bike	197,164 (20%)	173,907 (18%)
¹ n (%)

RIDEABLE TYPE JUL TO SEP DAILY TOTALS.

jul_to_sep_v2 %>% 
  group_by(weekday., rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Spectral")+
  facet_wrap(~rideable_type)+
  labs(title = "Rideable Type July to September 2021 Daily Totals.",
       x = "Day Of Week",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'weekday.'. You can override using the
## `.groups` argument.

RIDEABLE TYPE JUL TO SEP DAILY TOTALS.

jul_to_sep_v2 %>% 
  group_by(weekday., rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Spectral")+
  labs(title = "Rideable Type July to September 2021 Daily Totals.",
       x = "Day Of Week",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'weekday.'. You can override using the
## `.groups` argument.

SUMMARY RIDEABLE TYPE JUL TO SEP DAILY TOTALS.

jul_to_sep_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, member_casual )) %>% tbl_summary(by = rideable_type)

Characteristic	classic_bike, N = 1,432,792¹	docked_bike, N = 136,381¹	electric_bike, N = 371,071¹
weekday.
Sun	224,745 (16%)	28,793 (21%)	49,567 (13%)
Mon	174,916 (12%)	16,716 (12%)	49,116 (13%)
Tue	170,718 (12%)	11,989 (8.8%)	52,776 (14%)
Wed	185,940 (13%)	12,189 (8.9%)	51,042 (14%)
Thu	209,184 (15%)	14,120 (10%)	55,882 (15%)
Fri	205,857 (14%)	19,382 (14%)	56,957 (15%)
Sat	261,432 (18%)	33,192 (24%)	55,731 (15%)
¹ n (%)

RIDEABLE TYPE JUL TO SEP TOTALS.

jul_to_sep_v2 %>% 
  group_by(rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(rideable_type)  %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Spectral")+
  labs(title = "Rideable Type July to September 2021 Totals.",
       x = "Rideable Type",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

SUMMARY RIDEABLE TYPE JUL TO SEP TOTALS.

jul_to_sep_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, weekday., member_casual)) %>% tbl_summary()

Characteristic	N = 1,940,244¹
rideable_type
classic_bike	1,432,792 (74%)
docked_bike	136,381 (7.0%)
electric_bike	371,071 (19%)
¹ n (%)

MORE TO LEARN.

SESSION INFORMATION.

sessionInfo()

## R version 4.2.3 (2023-03-15 ucrt)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 22621)
## 
## Matrix products: default
## 
## locale:
## [1] LC_COLLATE=English_United Kingdom.utf8 
## [2] LC_CTYPE=English_United Kingdom.utf8   
## [3] LC_MONETARY=English_United Kingdom.utf8
## [4] LC_NUMERIC=C                           
## [5] LC_TIME=English_United Kingdom.utf8    
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] ggthemes_4.2.4     RColorBrewer_1.1-3 scales_1.2.1       gtsummary_1.7.1   
##  [5] conflicted_1.2.0   janitor_2.2.0      skimr_2.1.5        here_1.0.1        
##  [9] hms_1.1.3          data.table_1.14.8  lubridate_1.9.2    forcats_1.0.0     
## [13] stringr_1.5.0      dplyr_1.1.2        purrr_1.0.1        readr_2.1.4       
## [17] tidyr_1.3.0        tibble_3.2.1       ggplot2_3.4.2      tidyverse_2.0.0   
## 
## loaded via a namespace (and not attached):
##  [1] rprojroot_2.0.3      digest_0.6.29        utf8_1.2.2          
##  [4] R6_2.5.1             repr_1.1.6           evaluate_0.16       
##  [7] highr_0.9            pillar_1.9.0         rlang_1.1.0         
## [10] rstudioapi_0.14      jquerylib_0.1.4      rmarkdown_2.22      
## [13] labeling_0.4.2       munsell_0.5.0        compiler_4.2.3      
## [16] xfun_0.38            pkgconfig_2.0.3      base64enc_0.1-3     
## [19] htmltools_0.5.5      tidyselect_1.2.0     fansi_1.0.3         
## [22] crayon_1.5.1         tzdb_0.3.0           withr_2.5.0         
## [25] commonmark_1.9.0     grid_4.2.3           jsonlite_1.8.4      
## [28] gtable_0.3.0         lifecycle_1.0.3      magrittr_2.0.3      
## [31] cli_3.6.1            stringi_1.7.8        cachem_1.0.6        
## [34] farver_2.1.1         broom.helpers_1.13.0 snakecase_0.11.0    
## [37] xml2_1.3.3           bslib_0.4.0          generics_0.1.3      
## [40] vctrs_0.6.1          tools_4.2.3          glue_1.6.2          
## [43] markdown_1.5         fastmap_1.1.0        yaml_2.3.5          
## [46] timechange_0.1.1     colorspace_2.0-3     gt_0.9.0            
## [49] memoise_2.0.1        knitr_1.39           sass_0.4.6

CYCLISTIC BIKES JUL TO SEP 2021

Stephen Williams

2023-07-02

SETTING UP ENVIRONMENT.

INSTALL PACKAGES.

SCIENTIFIC NOTATION RUINING YOUR GGPLOT CHARTS? TRY THE LINE OF CODE BELOW.

USE ‘getwd()’ FUNCTION TO DISPLAY WORKING DIRECTORY.

USE ‘setwd()’ FUNCTION TO SET WORKING DIRECTORY TO SIMPLIFY CALLS TO DATA.

USE ‘spec_csv()’ FUNCTION TO CHECK THE DATA TYPES BEFORE READING THE DATA.

NOTICE ‘started_at’ AND ‘ended_at’ COLUMNS ARE ‘datetime’ DATA TYPE.

UPLOAD DATASETS divvy-trip-data.csv FILES.

USE ‘bind_rows()’ FUNCTION TO STACK DATA FRAMES INTO ONE BIG DATA FRAME.

CHECK COLUMNS.

USE ‘glimpse()’ FUNCTION TO GET A BETTER UNDERSTANDING OF THE DATA.

Rows: 2,382,909 Columns: 13

COLUMNS ‘started_at’ AND ‘ended_at’ ARE NOW ‘character’ DATA TYPE.

COLUMNS ‘end_station_name’ AND ‘end_station_id’ HAVE BLANK ROWS THAT NEED TO BE REMOVED.

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘data.frame’: 2382909 obs. of 13 variables:

USE TIDYR TO SEPARATE “started_at” COLUMN TO A NEW COLUMN CALLED “start_date” and “start_time”.

USE TIDYR TO SEPARATE “ended_at” COLUMN TO A NEW COLUMN CALLED “end_date” and “end_time”.

CHECK NEW COLUMNS.

‘data.frame’: 2382909 obs. of 17 variables:

EXPLORE AND MANIPULATE DATA FRAME JUL TO SEP.

COLUMN RIDEABLE TYPE.

EXPLORE CHARACTER VARIABLE TYPE IN “rideable_type” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

BAR PLOT OF DATA DISTRIBUTION OF ‘rideable_type’ COLUMN.

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE RIDEABLE TYPE IS NOW A FACTOR.

COLUMN STARTED_AT AND ENDED_AT.

EXPLORE CHARACTER VARIABLE TYPE IN “started_at” AND ended_at” COLUMN.

DATA TYPE IN COLUMN “started_at” AND “end_at” WAS DATETIME BEFORE UPLOADING.

CONVERT “started_at” AND “ended_at” COLUMN FROM CHARACTER TO DATETIME.

CONVERT “start_date” AND “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

CONVERT “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘started_at’AND ’ended_at’ CHARACTER DATA TYPE IS NOW POSIXlt.

COLUMN START_STATION_NAME START_STATION_ID END_STATION_NAME AND END_STATION_ID.

EXPLORE…CHARACTER VARIABLE TYPE IN “start_staion_name” AND “end_staion_name”

REPLACE ALL BLANK VALUES IN “start_station_name” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “start_station_id” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “end_station_name” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “end_station_id” COLUMN WITH NA VALUES.

REMOVE ROWS WITH NA VALUES IN ALL COLUMNS.

‘data.frame’: 1987880 obs. of 17 variables:

COLUMN MEMBER_CASUAL.

EXPLORE…CHARACTER VARIABLE TYPE IN “member_casual” COLUMN.

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

BAR PLOT OF DATA DISTRIBUTION OF ‘member_casual’ COLUMN.

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE MEMBER CASUAL IS NOW A FACTOR.

ADD A CALCULATED FIELD FOR NEW COLUMN “ride_length_secs”

CHECK DATA TYPE.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

CONVERT “ride_length_secs” FROM DIFFTIME TO NUMERIC TO RUN CALCULATIONS ON THE DATA.

CHECK DATA TYPE.

CREATE NEW COLUMN “ride_length_total” USING MUTATE FUNCTION.

CHECK DATA TYPE.

ADD COLUMN FOR DAY OF WEEK.

NUMERIC VALUE DAY OF WEEK SUNDAY = 1 MONDAY = 2 TUESDAY = 3 ETC, ETC…

CHARACTER DAY OF WEEK USING ABBREVIATED LABELS MON,TUE,WED ETC ETC…

CHANGE ‘weekday’ DATA TYPE.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE WEEKDAY. IS AN ORDERED FACTOR.

EXPLORE NUMERIC VARIABLE TYPE IN “weekday” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘summary()’ FUNCTION TO SUMMARIZE VALUES IN DATA FRAME.

BOX PLOT IS A GRAPHICAL REPRESENTATION TO SUMMARIZE DATA AND IDENTIFY OUTLIERS.

HISTOGRAM TO VISUALIZE DISTRIBUTION OF VALUES IN WEEKDAY COLUMN.