CYCLISTIC BIKES JAN TO MAR 2021.

SETTING UP ENVIRONMENT.

LOAD PACKAGES

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(data.table)

## 
## Attaching package: 'data.table'
## 
## The following objects are masked from 'package:lubridate':
## 
##     hour, isoweek, mday, minute, month, quarter, second, wday, week,
##     yday, year
## 
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
## 
## The following object is masked from 'package:purrr':
## 
##     transpose

library(hms)

## 
## Attaching package: 'hms'
## 
## The following object is masked from 'package:lubridate':
## 
##     hms

library(here)

## here() starts at C:/Users/SWill/Documents/JAN TO MAR CYCLISTIC BIKES

library(skimr)
library(janitor)

## 
## Attaching package: 'janitor'
## 
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

library(conflicted)
library(gtsummary)
library(scales)
library(RColorBrewer)
library(ggthemes)

SCIENTIFIC NOTATION RUINING YOUR GGPLOT CHARTS? TRY THE LINE OF CODE BELOW

options(scipen = 999)

USE ‘getwd()’ FUNCTION TO DISPLAY WORKING DIRECTORY.

getwd()

## [1] "C:/Users/SWill/Documents/JAN TO MAR CYCLISTIC BIKES"

USE ‘setwd()’ FUNCTION TO SET WORKING DIRECTORY TO SIMPLIFY CALLS TO DATA.

setwd("C:/Users/SWill/Documents/JAN TO MAR CYCLISTIC BIKES")

USE ‘spec_csv()’ FUNCTION TO CHECK THE DATA TYPES BEFORE READING THE DATA.

NOTICE ‘started_at’ AND ‘ended_at’ COLUMNS ARE ‘datetime’ DATA TYPE.

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202101-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202102-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

spec_csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202103-divvy-tripdata.csv")

## cols(
##   ride_id = col_character(),
##   rideable_type = col_character(),
##   started_at = col_datetime(format = ""),
##   ended_at = col_datetime(format = ""),
##   start_station_name = col_character(),
##   start_station_id = col_character(),
##   end_station_name = col_character(),
##   end_station_id = col_character(),
##   start_lat = col_double(),
##   start_lng = col_double(),
##   end_lat = col_double(),
##   end_lng = col_double(),
##   member_casual = col_character()
## )

UPLOAD DATASETS divvy-trip-data.csv FILES.

df_01 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202101-divvy-tripdata.csv")
df_02 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202102-divvy-tripdata.csv")
df_03 <- read.csv("C:/Users/SWill/Desktop/CYCLISTIC BIKES/divvy-trip-data 01-12/202103-divvy-tripdata.csv")

USE ‘bind_rows()’ FUNCTION TO STACK DATA FRAMES INTO ONE BIG DATA FRAME.

jan_to_mar <- bind_rows(df_01,df_02,df_03)

CHECK COLUMNS.

colnames(jan_to_mar)

##  [1] "ride_id"            "rideable_type"      "started_at"        
##  [4] "ended_at"           "start_station_name" "start_station_id"  
##  [7] "end_station_name"   "end_station_id"     "start_lat"         
## [10] "start_lng"          "end_lat"            "end_lng"           
## [13] "member_casual"

USE ‘glimpse()’ FUNCTION TO GET A BETTER UNDERSTANDING OF THE DATA.

Rows: 374,952 Columns: 13

COLUMNS ‘started_at’ AND ‘ended_at’ ARE NOW ‘character’ DATA TYPE.

COLUMNS ‘end_station_name’ AND ‘end_station_id’ HAVE BLANK ROWS THAT NEED TO BE REMOVED.

glimpse(jan_to_mar)

## Rows: 374,952
## Columns: 13
## $ ride_id            <chr> "E19E6F1B8D4C42ED", "DC88F20C2C55F27F", "EC45C94683…
## $ rideable_type      <chr> "electric_bike", "electric_bike", "electric_bike", …
## $ started_at         <chr> "2021-01-23 16:14:19", "2021-01-27 18:43:08", "2021…
## $ ended_at           <chr> "2021-01-23 16:24:44", "2021-01-27 18:47:12", "2021…
## $ start_station_name <chr> "California Ave & Cortez St", "California Ave & Cor…
## $ start_station_id   <chr> "17660", "17660", "17660", "17660", "17660", "17660…
## $ end_station_name   <chr> "", "", "", "", "", "", "", "", "", "Wood St & Augu…
## $ end_station_id     <chr> "", "", "", "", "", "", "", "", "", "657", "13258",…
## $ start_lat          <dbl> 41.90034, 41.90033, 41.90031, 41.90040, 41.90033, 4…
## $ start_lng          <dbl> -87.69674, -87.69671, -87.69664, -87.69666, -87.696…
## $ end_lat            <dbl> 41.89000, 41.90000, 41.90000, 41.92000, 41.90000, 4…
## $ end_lng            <dbl> -87.72000, -87.69000, -87.70000, -87.69000, -87.700…
## $ member_casual      <chr> "member", "member", "member", "member", "casual", "…

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘data.frame’: 374952 obs. of 13 variables:

str(jan_to_mar)

## 'data.frame':    374952 obs. of  13 variables:
##  $ ride_id           : chr  "E19E6F1B8D4C42ED" "DC88F20C2C55F27F" "EC45C94683FE3F27" "4FA453A75AE377DB" ...
##  $ rideable_type     : chr  "electric_bike" "electric_bike" "electric_bike" "electric_bike" ...
##  $ started_at        : chr  "2021-01-23 16:14:19" "2021-01-27 18:43:08" "2021-01-21 22:35:54" "2021-01-07 13:31:13" ...
##  $ ended_at          : chr  "2021-01-23 16:24:44" "2021-01-27 18:47:12" "2021-01-21 22:37:14" "2021-01-07 13:42:55" ...
##  $ start_station_name: chr  "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "17660" "17660" "17660" "17660" ...
##  $ end_station_name  : chr  "" "" "" "" ...
##  $ end_station_id    : chr  "" "" "" "" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : chr  "member" "member" "member" "member" ...

USE TIDYR TO SEPARATE “started_at” COLUMN TO A NEW COLUMN CALLED “start_date” and “start_time”.

USE TIDYR TO SEPARATE “ended_at” COLUMN TO A NEW COLUMN CALLED “end_date” and “end_time”.

jan_to_mar <- tidyr::separate(jan_to_mar, started_at, c("start_date", "start_time"), sep = " ", remove = FALSE)
jan_to_mar <- tidyr::separate(jan_to_mar, ended_at, c("end_date", "end_time"), sep = " ", remove = FALSE)

CHECK NEW COLUMNS.

colnames(jan_to_mar)

##  [1] "ride_id"            "rideable_type"      "started_at"        
##  [4] "start_date"         "start_time"         "ended_at"          
##  [7] "end_date"           "end_time"           "start_station_name"
## [10] "start_station_id"   "end_station_name"   "end_station_id"    
## [13] "start_lat"          "start_lng"          "end_lat"           
## [16] "end_lng"            "member_casual"

‘data.frame’: 374952 obs. of 17 variables:

str(jan_to_mar)

## 'data.frame':    374952 obs. of  17 variables:
##  $ ride_id           : chr  "E19E6F1B8D4C42ED" "DC88F20C2C55F27F" "EC45C94683FE3F27" "4FA453A75AE377DB" ...
##  $ rideable_type     : chr  "electric_bike" "electric_bike" "electric_bike" "electric_bike" ...
##  $ started_at        : chr  "2021-01-23 16:14:19" "2021-01-27 18:43:08" "2021-01-21 22:35:54" "2021-01-07 13:31:13" ...
##  $ start_date        : chr  "2021-01-23" "2021-01-27" "2021-01-21" "2021-01-07" ...
##  $ start_time        : chr  "16:14:19" "18:43:08" "22:35:54" "13:31:13" ...
##  $ ended_at          : chr  "2021-01-23 16:24:44" "2021-01-27 18:47:12" "2021-01-21 22:37:14" "2021-01-07 13:42:55" ...
##  $ end_date          : chr  "2021-01-23" "2021-01-27" "2021-01-21" "2021-01-07" ...
##  $ end_time          : chr  "16:24:44" "18:47:12" "22:37:14" "13:42:55" ...
##  $ start_station_name: chr  "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "17660" "17660" "17660" "17660" ...
##  $ end_station_name  : chr  "" "" "" "" ...
##  $ end_station_id    : chr  "" "" "" "" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : chr  "member" "member" "member" "member" ...

EXPLORE AND MANIPULATE DATA FRAME “jan_to_mar”

COLUMN RIDEABLE TYPE.

EXPLORE…CHARACTER VARIABLE TYPE IN “rideable_type” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$rideable_type)

## [1] "character"

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

unique(jan_to_mar$rideable_type)

## [1] "electric_bike" "classic_bike"  "docked_bike"

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

table(jan_to_mar$rideable_type)

## 
##  classic_bike   docked_bike electric_bike 
##        249257         19034        106661

sort(table(jan_to_mar $rideable_type), decreasing = TRUE)

## 
##  classic_bike electric_bike   docked_bike 
##        249257        106661         19034

BAR PLOT OF DATA DISTRIBUTION OF ‘rideable_type’ COLUMN.

barplot(sort(table(jan_to_mar $rideable_type), decreasing = TRUE))

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

jan_to_mar$rideable_type <- as.factor(jan_to_mar$rideable_type)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$rideable_type)

## [1] "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(jan_to_mar$rideable_type)

## [1] "classic_bike"  "docked_bike"   "electric_bike"

NOTE RIDEABLE TYPE IS NOW A FACTOR.

glimpse(jan_to_mar)

## Rows: 374,952
## Columns: 17
## $ ride_id            <chr> "E19E6F1B8D4C42ED", "DC88F20C2C55F27F", "EC45C94683…
## $ rideable_type      <fct> electric_bike, electric_bike, electric_bike, electr…
## $ started_at         <chr> "2021-01-23 16:14:19", "2021-01-27 18:43:08", "2021…
## $ start_date         <chr> "2021-01-23", "2021-01-27", "2021-01-21", "2021-01-…
## $ start_time         <chr> "16:14:19", "18:43:08", "22:35:54", "13:31:13", "02…
## $ ended_at           <chr> "2021-01-23 16:24:44", "2021-01-27 18:47:12", "2021…
## $ end_date           <chr> "2021-01-23", "2021-01-27", "2021-01-21", "2021-01-…
## $ end_time           <chr> "16:24:44", "18:47:12", "22:37:14", "13:42:55", "02…
## $ start_station_name <chr> "California Ave & Cortez St", "California Ave & Cor…
## $ start_station_id   <chr> "17660", "17660", "17660", "17660", "17660", "17660…
## $ end_station_name   <chr> "", "", "", "", "", "", "", "", "", "Wood St & Augu…
## $ end_station_id     <chr> "", "", "", "", "", "", "", "", "", "657", "13258",…
## $ start_lat          <dbl> 41.90034, 41.90033, 41.90031, 41.90040, 41.90033, 4…
## $ start_lng          <dbl> -87.69674, -87.69671, -87.69664, -87.69666, -87.696…
## $ end_lat            <dbl> 41.89000, 41.90000, 41.90000, 41.92000, 41.90000, 4…
## $ end_lng            <dbl> -87.72000, -87.69000, -87.70000, -87.69000, -87.700…
## $ member_casual      <chr> "member", "member", "member", "member", "casual", "…

COLUMN STARTED_AT AND ENDED_AT.

EXPLORE…CHARACTER VARIABLE TYPE IN “started_at” AND ended_at” COLUMN.

DATA TYPE IN COLUMN “started_at” AND “end_at” WAS DATETIME BEFORE UPLOADING.

CONVERT “started_at” AND “ended_at” COLUMN FROM CHARACTER TO DATETIME.

jan_to_mar$started_at <- as.POSIXlt(jan_to_mar$started_at, format="%Y-%m-%d %H:%M:%S", tz="UTC")
jan_to_mar$ended_at <- as.POSIXlt(jan_to_mar$ended_at, format="%Y-%m-%d %H:%M:%S", tz="UTC")

CONVERT “start_date” COLUMN FROM CHARACTER TO DATE FORMAT.

jan_to_mar$start_date <- as.POSIXlt(jan_to_mar$start_date)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$start_date)

## [1] "POSIXlt" "POSIXt"

CONVERT “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

jan_to_mar$end_date <- as.POSIXlt(jan_to_mar$end_date)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$end_date)

## [1] "POSIXlt" "POSIXt"

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘started_at’AND ’ended_at’ CHARACTER DATA TYPE IS NOW POSIXlt.

‘data.frame’: 374952 obs. of 17 variables:

str(jan_to_mar)

## 'data.frame':    374952 obs. of  17 variables:
##  $ ride_id           : chr  "E19E6F1B8D4C42ED" "DC88F20C2C55F27F" "EC45C94683FE3F27" "4FA453A75AE377DB" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 3 3 3 3 3 3 3 3 3 1 ...
##  $ started_at        : POSIXlt, format: "2021-01-23 16:14:19" "2021-01-27 18:43:08" ...
##  $ start_date        : POSIXlt, format: "2021-01-23" "2021-01-27" ...
##  $ start_time        : chr  "16:14:19" "18:43:08" "22:35:54" "13:31:13" ...
##  $ ended_at          : POSIXlt, format: "2021-01-23 16:24:44" "2021-01-27 18:47:12" ...
##  $ end_date          : POSIXlt, format: "2021-01-23" "2021-01-27" ...
##  $ end_time          : chr  "16:24:44" "18:47:12" "22:37:14" "13:42:55" ...
##  $ start_station_name: chr  "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "17660" "17660" "17660" "17660" ...
##  $ end_station_name  : chr  "" "" "" "" ...
##  $ end_station_id    : chr  "" "" "" "" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : chr  "member" "member" "member" "member" ...

COLUMN START_STATION_NAME START_STATION_ID END_STATION_NAME AND END_STATION_ID.

EXPLORE CHARACTER VARIABLE TYPE IN “start_staion_name” AND “end_staion_name”

REPLACE ALL BLANK VALUES IN “start_station_name” COLUMN WITH NA VALUES.

jan_to_mar$start_station_name[jan_to_mar$start_station_name==""] <- NA

REPLACE ALL BLANK VALUES IN “start_station_id” COLUMN WITH NA VALUES.

jan_to_mar$start_station_id[jan_to_mar$start_station_id==""] <- NA

REPLACE ALL BLANK VALUES IN “end_station_name” COLUMN WITH NA VALUES.

jan_to_mar$end_station_name[jan_to_mar$end_station_name==""] <- NA

REPLACE ALL BLANK VALUES IN “end_station_id” COLUMN WITH NA VALUES.

jan_to_mar$end_station_id[jan_to_mar$end_station_id==""] <- NA

glimpse(jan_to_mar)

## Rows: 374,952
## Columns: 17
## $ ride_id            <chr> "E19E6F1B8D4C42ED", "DC88F20C2C55F27F", "EC45C94683…
## $ rideable_type      <fct> electric_bike, electric_bike, electric_bike, electr…
## $ started_at         <dttm> 2021-01-23 16:14:19, 2021-01-27 18:43:08, 2021-01-…
## $ start_date         <dttm> 2021-01-23, 2021-01-27, 2021-01-21, 2021-01-07, 20…
## $ start_time         <chr> "16:14:19", "18:43:08", "22:35:54", "13:31:13", "02…
## $ ended_at           <dttm> 2021-01-23 16:24:44, 2021-01-27 18:47:12, 2021-01-…
## $ end_date           <dttm> 2021-01-23, 2021-01-27, 2021-01-21, 2021-01-07, 20…
## $ end_time           <chr> "16:24:44", "18:47:12", "22:37:14", "13:42:55", "02…
## $ start_station_name <chr> "California Ave & Cortez St", "California Ave & Cor…
## $ start_station_id   <chr> "17660", "17660", "17660", "17660", "17660", "17660…
## $ end_station_name   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, "Wood St & Augu…
## $ end_station_id     <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, "657", "13258",…
## $ start_lat          <dbl> 41.90034, 41.90033, 41.90031, 41.90040, 41.90033, 4…
## $ start_lng          <dbl> -87.69674, -87.69671, -87.69664, -87.69666, -87.696…
## $ end_lat            <dbl> 41.89000, 41.90000, 41.90000, 41.92000, 41.90000, 4…
## $ end_lng            <dbl> -87.72000, -87.69000, -87.70000, -87.69000, -87.700…
## $ member_casual      <chr> "member", "member", "member", "member", "casual", "…

REMOVE ROWS WITH NA VALUES IN ALL COLUMNS.

jan_to_mar <- jan_to_mar %>% drop_na()

‘data.frame’: 332196 obs. of 17 variables:

str(jan_to_mar)

## 'data.frame':    332196 obs. of  17 variables:
##  $ ride_id           : chr  "B9F73448DFBE0D45" "457C7F4B5D3DA135" "57C750326F9FDABE" "4D518C65E338D070" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 1 3 3 3 1 3 1 1 3 3 ...
##  $ started_at        : POSIXlt, format: "2021-01-24 19:15:38" "2021-01-23 12:57:38" ...
##  $ start_date        : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ start_time        : chr  "19:15:38" "12:57:38" "15:28:04" "15:28:57" ...
##  $ ended_at          : POSIXlt, format: "2021-01-24 19:22:51" "2021-01-23 13:02:10" ...
##  $ end_date          : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ end_time          : chr  "19:22:51" "13:02:10" "15:37:51" "15:37:54" ...
##  $ start_station_name: chr  "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "17660" "17660" "17660" "17660" ...
##  $ end_station_name  : chr  "Wood St & Augusta Blvd" "California Ave & North Ave" "Wood St & Augusta Blvd" "Wood St & Augusta Blvd" ...
##  $ end_station_id    : chr  "657" "13258" "657" "657" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : chr  "member" "member" "casual" "casual" ...

COLUMN MEMBER_CASUAL.

EXPLORE…CHARACTER VARIABLE TYPE IN “member_casual” COLUMN.

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

unique(jan_to_mar$member_casual)

## [1] "member" "casual"

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

table(jan_to_mar$member_casual)

## 
## casual member 
##  98945 233251

sort(table(jan_to_mar$member_casual), decreasing = TRUE)

## 
## member casual 
## 233251  98945

BAR PLOT OF DATA DISTRIBUTION OF ‘member_casual’ COLUMN.

barplot(sort(table(jan_to_mar$member_casual), decreasing = TRUE))

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

jan_to_mar$member_casual <- as.factor(jan_to_mar$member_casual)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$member_casual)

## [1] "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(jan_to_mar$member_casual)

## [1] "casual" "member"

NOTE MEMBER CASUAL IS NOW A FACTOR.

glimpse(jan_to_mar)

## Rows: 332,196
## Columns: 17
## $ ride_id            <chr> "B9F73448DFBE0D45", "457C7F4B5D3DA135", "57C750326F…
## $ rideable_type      <fct> classic_bike, electric_bike, electric_bike, electri…
## $ started_at         <dttm> 2021-01-24 19:15:38, 2021-01-23 12:57:38, 2021-01-…
## $ start_date         <dttm> 2021-01-24, 2021-01-23, 2021-01-09, 2021-01-09, 20…
## $ start_time         <chr> "19:15:38", "12:57:38", "15:28:04", "15:28:57", "15…
## $ ended_at           <dttm> 2021-01-24 19:22:51, 2021-01-23 13:02:10, 2021-01-…
## $ end_date           <dttm> 2021-01-24, 2021-01-23, 2021-01-09, 2021-01-09, 20…
## $ end_time           <chr> "19:22:51", "13:02:10", "15:37:51", "15:37:54", "16…
## $ start_station_name <chr> "California Ave & Cortez St", "California Ave & Cor…
## $ start_station_id   <chr> "17660", "17660", "17660", "17660", "17660", "17660…
## $ end_station_name   <chr> "Wood St & Augusta Blvd", "California Ave & North A…
## $ end_station_id     <chr> "657", "13258", "657", "657", "657", "KA1504000135"…
## $ start_lat          <dbl> 41.90036, 41.90041, 41.90037, 41.90038, 41.90036, 4…
## $ start_lng          <dbl> -87.69670, -87.69673, -87.69669, -87.69672, -87.696…
## $ end_lat            <dbl> 41.89918, 41.91044, 41.89918, 41.89915, 41.89918, 4…
## $ end_lng            <dbl> -87.67220, -87.69689, -87.67218, -87.67218, -87.672…
## $ member_casual      <fct> member, member, casual, casual, casual, member, mem…

ADD A CALCULATED FIELD FOR NEW COLUMN “ride_length_secs”.

jan_to_mar$ride_length_secs <- difftime(jan_to_mar$ended_at,jan_to_mar$started_at)

CHECK DATA TYPE.

is.numeric(jan_to_mar$ride_length_secs)

## [1] FALSE

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$ride_length_secs)

## [1] "difftime"

CONVERT “ride_length_secs” FROM DIFFTIME TO NUMERIC TO RUN CALCULATIONS ON THE DATA.

jan_to_mar$ride_length_secs <- as.numeric(as.character(jan_to_mar$ride_length_secs))

CHECK DATA TYPE.

is.numeric(jan_to_mar$ride_length_secs)

## [1] TRUE

CREATE NEW COLUMN “ride_length_total” USING MUTATE FUNCTION.

jan_to_mar <- mutate(jan_to_mar, ride_length_total = ride_length_secs/60)

CHECK DATA TYPE.

is.numeric(jan_to_mar$ride_length_total)

## [1] TRUE

ADD COLUMN FOR DAY OF WEEK.

NUMERIC VALUE DAY OF WEEK SUNDAY = 1 MONDAY = 2 TUESDAY = 3 ETC, ETC…

jan_to_mar$weekday <- lubridate::wday(jan_to_mar$start_date)

CHARACTER DAY OF WEEK USING ABBREVIATED LABELS MON,TUE,WED ETC ETC…

jan_to_mar$weekday. <- lubridate::wday(jan_to_mar$start_date, label = TRUE)

CHANGE WEEKDAY DATA TYPE

jan_to_mar$weekday. <- as.factor(jan_to_mar$weekday.)

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$weekday.)

## [1] "ordered" "factor"

USE ‘levels’ FUNCTION TO CHECK FACTOR.

levels(jan_to_mar$weekday.)

## [1] "Sun" "Mon" "Tue" "Wed" "Thu" "Fri" "Sat"

NOTE WEEKDAY. IS AN ORDERED FACTOR.

glimpse(jan_to_mar)

## Rows: 332,196
## Columns: 21
## $ ride_id            <chr> "B9F73448DFBE0D45", "457C7F4B5D3DA135", "57C750326F…
## $ rideable_type      <fct> classic_bike, electric_bike, electric_bike, electri…
## $ started_at         <dttm> 2021-01-24 19:15:38, 2021-01-23 12:57:38, 2021-01-…
## $ start_date         <dttm> 2021-01-24, 2021-01-23, 2021-01-09, 2021-01-09, 20…
## $ start_time         <chr> "19:15:38", "12:57:38", "15:28:04", "15:28:57", "15…
## $ ended_at           <dttm> 2021-01-24 19:22:51, 2021-01-23 13:02:10, 2021-01-…
## $ end_date           <dttm> 2021-01-24, 2021-01-23, 2021-01-09, 2021-01-09, 20…
## $ end_time           <chr> "19:22:51", "13:02:10", "15:37:51", "15:37:54", "16…
## $ start_station_name <chr> "California Ave & Cortez St", "California Ave & Cor…
## $ start_station_id   <chr> "17660", "17660", "17660", "17660", "17660", "17660…
## $ end_station_name   <chr> "Wood St & Augusta Blvd", "California Ave & North A…
## $ end_station_id     <chr> "657", "13258", "657", "657", "657", "KA1504000135"…
## $ start_lat          <dbl> 41.90036, 41.90041, 41.90037, 41.90038, 41.90036, 4…
## $ start_lng          <dbl> -87.69670, -87.69673, -87.69669, -87.69672, -87.696…
## $ end_lat            <dbl> 41.89918, 41.91044, 41.89918, 41.89915, 41.89918, 4…
## $ end_lng            <dbl> -87.67220, -87.69689, -87.67218, -87.67218, -87.672…
## $ member_casual      <fct> member, member, casual, casual, casual, member, mem…
## $ ride_length_secs   <dbl> 433, 272, 587, 537, 609, 1233, 360, 268, 1103, 1025…
## $ ride_length_total  <dbl> 7.216667, 4.533333, 9.783333, 8.950000, 10.150000, …
## $ weekday            <dbl> 1, 7, 7, 7, 1, 6, 3, 7, 4, 6, 1, 2, 5, 2, 6, 7, 5, …
## $ weekday.           <ord> Sun, Sat, Sat, Sat, Sun, Fri, Tue, Sat, Wed, Fri, S…

EXPLORE NUMERIC VARIABLE TYPE IN “weekday” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

class(jan_to_mar$weekday)

## [1] "numeric"

USE ‘summary()’ FUNCTION TO SUMMARIZE VALUES IN DATA FRAME.

summary(jan_to_mar$weekday)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     2.0     4.0     4.1     6.0     7.0

BOX PLOT IS A GRAPHICAL REPRESENTATION TO SUMMARIZE DATA AND IDENTIFY OUTLIERS.

boxplot(jan_to_mar$weekday, col = 'orange')

HISTOGRAM TO VISUALIZE DISTRIBUTION OF VALUES IN WEEKDAY COLUMN.

hist(jan_to_mar$weekday, col = 'purple')

NOTE WEEKDAY IS NOW A ‘dbl’.

glimpse(jan_to_mar)

## Rows: 332,196
## Columns: 21
## $ ride_id            <chr> "B9F73448DFBE0D45", "457C7F4B5D3DA135", "57C750326F…
## $ rideable_type      <fct> classic_bike, electric_bike, electric_bike, electri…
## $ started_at         <dttm> 2021-01-24 19:15:38, 2021-01-23 12:57:38, 2021-01-…
## $ start_date         <dttm> 2021-01-24, 2021-01-23, 2021-01-09, 2021-01-09, 20…
## $ start_time         <chr> "19:15:38", "12:57:38", "15:28:04", "15:28:57", "15…
## $ ended_at           <dttm> 2021-01-24 19:22:51, 2021-01-23 13:02:10, 2021-01-…
## $ end_date           <dttm> 2021-01-24, 2021-01-23, 2021-01-09, 2021-01-09, 20…
## $ end_time           <chr> "19:22:51", "13:02:10", "15:37:51", "15:37:54", "16…
## $ start_station_name <chr> "California Ave & Cortez St", "California Ave & Cor…
## $ start_station_id   <chr> "17660", "17660", "17660", "17660", "17660", "17660…
## $ end_station_name   <chr> "Wood St & Augusta Blvd", "California Ave & North A…
## $ end_station_id     <chr> "657", "13258", "657", "657", "657", "KA1504000135"…
## $ start_lat          <dbl> 41.90036, 41.90041, 41.90037, 41.90038, 41.90036, 4…
## $ start_lng          <dbl> -87.69670, -87.69673, -87.69669, -87.69672, -87.696…
## $ end_lat            <dbl> 41.89918, 41.91044, 41.89918, 41.89915, 41.89918, 4…
## $ end_lng            <dbl> -87.67220, -87.69689, -87.67218, -87.67218, -87.672…
## $ member_casual      <fct> member, member, casual, casual, casual, member, mem…
## $ ride_length_secs   <dbl> 433, 272, 587, 537, 609, 1233, 360, 268, 1103, 1025…
## $ ride_length_total  <dbl> 7.216667, 4.533333, 9.783333, 8.950000, 10.150000, …
## $ weekday            <dbl> 1, 7, 7, 7, 1, 6, 3, 7, 4, 6, 1, 2, 5, 2, 6, 7, 5, …
## $ weekday.           <ord> Sun, Sat, Sat, Sat, Sun, Fri, Tue, Sat, Wed, Fri, S…

NOTE WEEKDAY IS NOW AN ORDERED FACTOR.

str(jan_to_mar)

## 'data.frame':    332196 obs. of  21 variables:
##  $ ride_id           : chr  "B9F73448DFBE0D45" "457C7F4B5D3DA135" "57C750326F9FDABE" "4D518C65E338D070" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 1 3 3 3 1 3 1 1 3 3 ...
##  $ started_at        : POSIXlt, format: "2021-01-24 19:15:38" "2021-01-23 12:57:38" ...
##  $ start_date        : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ start_time        : chr  "19:15:38" "12:57:38" "15:28:04" "15:28:57" ...
##  $ ended_at          : POSIXlt, format: "2021-01-24 19:22:51" "2021-01-23 13:02:10" ...
##  $ end_date          : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ end_time          : chr  "19:22:51" "13:02:10" "15:37:51" "15:37:54" ...
##  $ start_station_name: chr  "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "17660" "17660" "17660" "17660" ...
##  $ end_station_name  : chr  "Wood St & Augusta Blvd" "California Ave & North Ave" "Wood St & Augusta Blvd" "Wood St & Augusta Blvd" ...
##  $ end_station_id    : chr  "657" "13258" "657" "657" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 2 2 1 1 1 2 2 2 2 2 ...
##  $ ride_length_secs  : num  433 272 587 537 609 ...
##  $ ride_length_total : num  7.22 4.53 9.78 8.95 10.15 ...
##  $ weekday           : num  1 7 7 7 1 6 3 7 4 6 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 1 7 7 7 1 6 3 7 4 6 ...

NEW COLUMN RIDE_LENGTH_SECS

DELETE RIDES UNDER 2 MINUTES (> 120) 324486 ROWS REMAIN.

jan_to_mar <- subset(jan_to_mar, ride_length_secs > 120)

‘data.frame’: 324486 obs. of 21 variables:

str(jan_to_mar)

## 'data.frame':    324486 obs. of  21 variables:
##  $ ride_id           : chr  "B9F73448DFBE0D45" "457C7F4B5D3DA135" "57C750326F9FDABE" "4D518C65E338D070" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 1 3 3 3 1 3 1 1 3 3 ...
##  $ started_at        : POSIXlt, format: "2021-01-24 19:15:38" "2021-01-23 12:57:38" ...
##  $ start_date        : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ start_time        : chr  "19:15:38" "12:57:38" "15:28:04" "15:28:57" ...
##  $ ended_at          : POSIXlt, format: "2021-01-24 19:22:51" "2021-01-23 13:02:10" ...
##  $ end_date          : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ end_time          : chr  "19:22:51" "13:02:10" "15:37:51" "15:37:54" ...
##  $ start_station_name: chr  "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "17660" "17660" "17660" "17660" ...
##  $ end_station_name  : chr  "Wood St & Augusta Blvd" "California Ave & North Ave" "Wood St & Augusta Blvd" "Wood St & Augusta Blvd" ...
##  $ end_station_id    : chr  "657" "13258" "657" "657" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 2 2 1 1 1 2 2 2 2 2 ...
##  $ ride_length_secs  : num  433 272 587 537 609 ...
##  $ ride_length_total : num  7.22 4.53 9.78 8.95 10.15 ...
##  $ weekday           : num  1 7 7 7 1 6 3 7 4 6 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 1 7 7 7 1 6 3 7 4 6 ...

DELETE RIDES OVER 24 HOURS (> 86400) 324357 ROWS REMAIN.

jan_to_mar <- subset(jan_to_mar, ride_length_secs < 86400)

‘data.frame’: 324357 obs. of 21 variables:

str(jan_to_mar)

## 'data.frame':    324357 obs. of  21 variables:
##  $ ride_id           : chr  "B9F73448DFBE0D45" "457C7F4B5D3DA135" "57C750326F9FDABE" "4D518C65E338D070" ...
##  $ rideable_type     : Factor w/ 3 levels "classic_bike",..: 1 3 3 3 1 3 1 1 3 3 ...
##  $ started_at        : POSIXlt, format: "2021-01-24 19:15:38" "2021-01-23 12:57:38" ...
##  $ start_date        : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ start_time        : chr  "19:15:38" "12:57:38" "15:28:04" "15:28:57" ...
##  $ ended_at          : POSIXlt, format: "2021-01-24 19:22:51" "2021-01-23 13:02:10" ...
##  $ end_date          : POSIXlt, format: "2021-01-24" "2021-01-23" ...
##  $ end_time          : chr  "19:22:51" "13:02:10" "15:37:51" "15:37:54" ...
##  $ start_station_name: chr  "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" "California Ave & Cortez St" ...
##  $ start_station_id  : chr  "17660" "17660" "17660" "17660" ...
##  $ end_station_name  : chr  "Wood St & Augusta Blvd" "California Ave & North Ave" "Wood St & Augusta Blvd" "Wood St & Augusta Blvd" ...
##  $ end_station_id    : chr  "657" "13258" "657" "657" ...
##  $ start_lat         : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ start_lng         : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ end_lat           : num  41.9 41.9 41.9 41.9 41.9 ...
##  $ end_lng           : num  -87.7 -87.7 -87.7 -87.7 -87.7 ...
##  $ member_casual     : Factor w/ 2 levels "casual","member": 2 2 1 1 1 2 2 2 2 2 ...
##  $ ride_length_secs  : num  433 272 587 537 609 ...
##  $ ride_length_total : num  7.22 4.53 9.78 8.95 10.15 ...
##  $ weekday           : num  1 7 7 7 1 6 3 7 4 6 ...
##  $ weekday.          : Ord.factor w/ 7 levels "Sun"<"Mon"<"Tue"<..: 1 7 7 7 1 6 3 7 4 6 ...

SORT DATA FRAME BY DATE AND TIMES.

jan_to_mar <- jan_to_mar %>% arrange(ymd_hms(jan_to_mar$started_at))

CREATE NEW DATA FRAME (jan_to_mar_v2) FROM DATA FRAME (jan_to_mar).

jan_to_mar_v2 <- jan_to_mar[c('rideable_type', 'started_at', 'start_date', 'member_casual', 'ride_length_secs', 'ride_length_total', 'weekday', 'weekday.')]

DESCRIPTIVE ANALYSIS ON RIDE LENGTH.

MINIMUM TRIP TIME.

min(jan_to_mar_v2$ride_length_secs)

## [1] 121

MIDDLE VALUE IN JAN TO MAR DATASET.

median(jan_to_mar_v2$ride_length_secs)

## [1] 698

MAXIMUM TRIP TIME.

max(jan_to_mar_v2$ride_length_secs)

## [1] 86086

AVERAGE TRIP.

mean(jan_to_mar_v2$ride_length_secs)

## [1] 1133.622

THE DIFFERENCE BETWEEN MAXIMUM AND MINIMUM TRIP.

range(jan_to_mar_v2$ride_length_secs)

## [1]   121 86086

DIFFERENCE BETWEEN THE FIRST QUARTILE AND THIRD QUARTILE OF JAN TO MAR.

IQR(jan_to_mar_v2$ride_length_secs)

## [1] 863

COMPARE MEMBERS AND CASUAL RIDERS.

MEMBERS Vs CASUAL MINIMUM TRIP TIME.

aggregate(jan_to_mar_v2$ride_length_secs ~ jan_to_mar_v2$member_casual, FUN = min)

##   jan_to_mar_v2$member_casual jan_to_mar_v2$ride_length_secs
## 1                      casual                            121
## 2                      member                            121

MEMBERS Vs CASUAL MIDDLE VALUE IN JAN TO MAR DATASET.

aggregate(jan_to_mar_v2$ride_length_secs ~ jan_to_mar_v2$member_casual, FUN = median)

##   jan_to_mar_v2$member_casual jan_to_mar_v2$ride_length_secs
## 1                      casual                           1091
## 2                      member                            594

MEMBERS Vs CASUAL MAXIMUM TRIP TIME.

aggregate(jan_to_mar_v2$ride_length_secs ~ jan_to_mar_v2$member_casual, FUN = max)

##   jan_to_mar_v2$member_casual jan_to_mar_v2$ride_length_secs
## 1                      casual                          86086
## 2                      member                          81266

MEMBERS Vs CASUAL AVERAGE TRIP.

aggregate(jan_to_mar_v2$ride_length_secs ~ jan_to_mar_v2$member_casual, FUN = mean)

##   jan_to_mar_v2$member_casual jan_to_mar_v2$ride_length_secs
## 1                      casual                      1863.6395
## 2                      member                       820.2426

AVERAGE RIDE TIME FOR EACH DAY FOR MEMBERS Vs CASUAL RIDERS.

aggregate(jan_to_mar_v2$ride_length_total ~ jan_to_mar_v2$member_casual + jan_to_mar_v2$weekday., FUN = mean)

##    jan_to_mar_v2$member_casual jan_to_mar_v2$weekday.
## 1                       casual                    Sun
## 2                       member                    Sun
## 3                       casual                    Mon
## 4                       member                    Mon
## 5                       casual                    Tue
## 6                       member                    Tue
## 7                       casual                    Wed
## 8                       member                    Wed
## 9                       casual                    Thu
## 10                      member                    Thu
## 11                      casual                    Fri
## 12                      member                    Fri
## 13                      casual                    Sat
## 14                      member                    Sat
##    jan_to_mar_v2$ride_length_total
## 1                         35.98494
## 2                         15.54248
## 3                         33.25261
## 4                         13.48207
## 5                         30.59721
## 6                         13.30516
## 7                         25.49695
## 8                         13.04562
## 9                         22.79300
## 10                        12.27668
## 11                        25.18823
## 12                        12.74348
## 13                        33.34221
## 14                        15.35068

jan_to_mar_v2 %>% 
  group_by(member_casual, weekday.) %>%  
  summarise(number_of_rides = n(),average_duration = mean(ride_length_total)) %>%       
  arrange(member_casual, weekday.)

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

## # A tibble: 14 × 4
## # Groups:   member_casual [2]
##    member_casual weekday. number_of_rides average_duration
##    <fct>         <ord>              <int>            <dbl>
##  1 casual        Sun                19239             36.0
##  2 casual        Mon                12628             33.3
##  3 casual        Tue                11442             30.6
##  4 casual        Wed                10121             25.5
##  5 casual        Thu                 7437             22.8
##  6 casual        Fri                10144             25.2
##  7 casual        Sat                26408             33.3
##  8 member        Sun                27026             15.5
##  9 member        Mon                32933             13.5
## 10 member        Tue                34540             13.3
## 11 member        Wed                35150             13.0
## 12 member        Thu                29405             12.3
## 13 member        Fri                31769             12.7
## 14 member        Sat                36115             15.4

DATA VISUALIZATIONS AND SUMMARY.

COUNT ‘member_casual’ FOR PIE CHART.

CREATE DATA FRAME FOR PIE CHART.

MEMBER Vs CASUAL JAN TO MAR PIE CHART.

jan_to_mar_tot <- jan_to_mar_v2 %>% 
  group_by(member_casual) %>% 
  summarise(number_of_rides = n()) 

pie_cvm <- data.frame(group = c("casual", "member"), value = c(97419, 226938))

ggplot(pie_cvm, aes(x = "", y = value, fill = group)) +
  geom_col(width = 1) +
  coord_polar("y") +
  geom_text(aes(label = round(value, 3)), position = position_stack(vjust = 0.5))+
  scale_fill_brewer(palette = "Set3")+
  labs(title = "January to March 2021 Totals.")+
  theme_economist()

MEMBER Vs CASUAL JAN TO MAR DAILY TOTALS.

jan_to_mar_v2 %>% 
  group_by(member_casual, weekday.) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = member_casual)) +
  scale_fill_brewer(palette = "Set3")+
  labs(title = "Member Vs Casual, January to March 2021 Daily Totals.",
       x = "Weekday",
       y = "Number of Rides")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

SUMMARY MEMBER Vs CASUAL JAN TO MAR DAILY TOTALS.

jan_to_mar_v2 %>% select(!c(ride_length_secs, ride_length_total ,started_at, start_date, weekday, rideable_type)) %>% tbl_summary(by = member_casual)

Characteristic	casual, N = 97,419¹	member, N = 226,938¹
weekday.
Sun	19,239 (20%)	27,026 (12%)
Mon	12,628 (13%)	32,933 (15%)
Tue	11,442 (12%)	34,540 (15%)
Wed	10,121 (10%)	35,150 (15%)
Thu	7,437 (7.6%)	29,405 (13%)
Fri	10,144 (10%)	31,769 (14%)
Sat	26,408 (27%)	36,115 (16%)
¹ n (%)

MEMBER Vs CASUAL JAN TO MAR RIDEABLE TYPE.

jan_to_mar_v2 %>% 
  group_by(member_casual, rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, rideable_type)  %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = member_casual)) +
  scale_fill_brewer(palette = "Set3")+
  labs(title = "January to March 2021 Rideable Type.",
       x = "Rideable Type",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'member_casual'. You can override using the
## `.groups` argument.

SUMMARY MEMBER Vs CASUAL JAN TO MAR RIDEABLE TYPE.

jan_to_mar_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, weekday.)) %>% tbl_summary(by = member_casual)

Characteristic	casual, N = 97,419¹	member, N = 226,938¹
rideable_type
classic_bike	58,268 (60%)	183,991 (81%)
docked_bike	18,723 (19%)	1 (<0.1%)
electric_bike	20,428 (21%)	42,946 (19%)
¹ n (%)

RIDEABLE TYPE JAN TO MAR DAILY TOTALS.

jan_to_mar_v2 %>% 
  group_by(weekday., rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Set3")+
  facet_wrap(~rideable_type)+
  labs(title = "Rideable Type January to March 2021 Daily Totals.",
       x = "Day Of Week",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'weekday.'. You can override using the
## `.groups` argument.

RIDEABLE TYPE JAN TO MAR DAILY TOTALS.

jan_to_mar_v2 %>% 
  group_by(weekday., rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(weekday.)  %>% 
  ggplot(aes(x = weekday., y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Set3")+
  labs(title = "Rideable Type January to March 2021 Daily Totals.",
       x = "Day Of Week",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

## `summarise()` has grouped output by 'weekday.'. You can override using the
## `.groups` argument.

SUMMARY RIDEABLE TYPE JAN TO MAR DAILY TOTALS.

jan_to_mar_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, member_casual )) %>% tbl_summary(by = rideable_type)

Characteristic	classic_bike, N = 242,259¹	docked_bike, N = 18,724¹	electric_bike, N = 63,374¹
weekday.
Sun	33,973 (14%)	4,190 (22%)	8,102 (13%)
Mon	34,448 (14%)	2,549 (14%)	8,564 (14%)
Tue	34,980 (14%)	2,087 (11%)	8,915 (14%)
Wed	34,142 (14%)	1,601 (8.6%)	9,528 (15%)
Thu	27,988 (12%)	1,032 (5.5%)	7,822 (12%)
Fri	31,496 (13%)	1,554 (8.3%)	8,863 (14%)
Sat	45,232 (19%)	5,711 (31%)	11,580 (18%)
¹ n (%)

RIDEABLE TYPE JAN TO MAR TOTALS.

jan_to_mar_v2 %>% 
  group_by(rideable_type) %>% 
  summarise(number_of_rides = n()) %>% 
  arrange(rideable_type)  %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = rideable_type)) +
  scale_fill_brewer(palette = "Set3")+
  labs(title = "Rideable Type January to March 2021 Totals.",
       x = "Rideable Type",
       y = "Number of Bikes")+
  geom_col(position = "dodge")+
  theme_economist()

SUMMARY RIDEABLE TYPE JAN TO MAR TOTALS.

jan_to_mar_v2 %>% select(!c(ride_length_secs,ride_length_total ,started_at, start_date, weekday, weekday., member_casual)) %>% tbl_summary()

Characteristic	N = 324,357¹
rideable_type
classic_bike	242,259 (75%)
docked_bike	18,724 (5.8%)
electric_bike	63,374 (20%)
¹ n (%)

MORE TO LEARN.

SESSION INFORMATION.

sessionInfo()

## R version 4.2.3 (2023-03-15 ucrt)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 22621)
## 
## Matrix products: default
## 
## locale:
## [1] LC_COLLATE=English_United Kingdom.utf8 
## [2] LC_CTYPE=English_United Kingdom.utf8   
## [3] LC_MONETARY=English_United Kingdom.utf8
## [4] LC_NUMERIC=C                           
## [5] LC_TIME=English_United Kingdom.utf8    
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] ggthemes_4.2.4     RColorBrewer_1.1-3 scales_1.2.1       gtsummary_1.7.1   
##  [5] conflicted_1.2.0   janitor_2.2.0      skimr_2.1.5        here_1.0.1        
##  [9] hms_1.1.3          data.table_1.14.8  lubridate_1.9.2    forcats_1.0.0     
## [13] stringr_1.5.0      dplyr_1.1.2        purrr_1.0.1        readr_2.1.4       
## [17] tidyr_1.3.0        tibble_3.2.1       ggplot2_3.4.2      tidyverse_2.0.0   
## 
## loaded via a namespace (and not attached):
##  [1] rprojroot_2.0.3      digest_0.6.29        utf8_1.2.2          
##  [4] R6_2.5.1             repr_1.1.6           evaluate_0.16       
##  [7] highr_0.9            pillar_1.9.0         rlang_1.1.0         
## [10] rstudioapi_0.14      jquerylib_0.1.4      rmarkdown_2.22      
## [13] labeling_0.4.2       munsell_0.5.0        compiler_4.2.3      
## [16] xfun_0.38            pkgconfig_2.0.3      base64enc_0.1-3     
## [19] htmltools_0.5.5      tidyselect_1.2.0     fansi_1.0.3         
## [22] crayon_1.5.1         tzdb_0.3.0           withr_2.5.0         
## [25] commonmark_1.9.0     grid_4.2.3           jsonlite_1.8.4      
## [28] gtable_0.3.0         lifecycle_1.0.3      magrittr_2.0.3      
## [31] cli_3.6.1            stringi_1.7.8        cachem_1.0.6        
## [34] farver_2.1.1         broom.helpers_1.13.0 snakecase_0.11.0    
## [37] xml2_1.3.3           bslib_0.4.0          generics_0.1.3      
## [40] vctrs_0.6.1          tools_4.2.3          glue_1.6.2          
## [43] markdown_1.5         fastmap_1.1.0        yaml_2.3.5          
## [46] timechange_0.1.1     colorspace_2.0-3     gt_0.9.0            
## [49] memoise_2.0.1        knitr_1.39           sass_0.4.6

CYCLISTIC BIKES JAN TO MAR 2021.

Stephen Williams

2023-06-30

SETTING UP ENVIRONMENT.

LOAD PACKAGES

SCIENTIFIC NOTATION RUINING YOUR GGPLOT CHARTS? TRY THE LINE OF CODE BELOW

USE ‘getwd()’ FUNCTION TO DISPLAY WORKING DIRECTORY.

USE ‘setwd()’ FUNCTION TO SET WORKING DIRECTORY TO SIMPLIFY CALLS TO DATA.

USE ‘spec_csv()’ FUNCTION TO CHECK THE DATA TYPES BEFORE READING THE DATA.

NOTICE ‘started_at’ AND ‘ended_at’ COLUMNS ARE ‘datetime’ DATA TYPE.

UPLOAD DATASETS divvy-trip-data.csv FILES.

USE ‘bind_rows()’ FUNCTION TO STACK DATA FRAMES INTO ONE BIG DATA FRAME.

CHECK COLUMNS.

USE ‘glimpse()’ FUNCTION TO GET A BETTER UNDERSTANDING OF THE DATA.

Rows: 374,952 Columns: 13

COLUMNS ‘started_at’ AND ‘ended_at’ ARE NOW ‘character’ DATA TYPE.

COLUMNS ‘end_station_name’ AND ‘end_station_id’ HAVE BLANK ROWS THAT NEED TO BE REMOVED.

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘data.frame’: 374952 obs. of 13 variables:

USE TIDYR TO SEPARATE “started_at” COLUMN TO A NEW COLUMN CALLED “start_date” and “start_time”.

USE TIDYR TO SEPARATE “ended_at” COLUMN TO A NEW COLUMN CALLED “end_date” and “end_time”.

CHECK NEW COLUMNS.

‘data.frame’: 374952 obs. of 17 variables:

EXPLORE AND MANIPULATE DATA FRAME “jan_to_mar”

COLUMN RIDEABLE TYPE.

EXPLORE…CHARACTER VARIABLE TYPE IN “rideable_type” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

BAR PLOT OF DATA DISTRIBUTION OF ‘rideable_type’ COLUMN.

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE RIDEABLE TYPE IS NOW A FACTOR.

COLUMN STARTED_AT AND ENDED_AT.

EXPLORE…CHARACTER VARIABLE TYPE IN “started_at” AND ended_at” COLUMN.

DATA TYPE IN COLUMN “started_at” AND “end_at” WAS DATETIME BEFORE UPLOADING.

CONVERT “started_at” AND “ended_at” COLUMN FROM CHARACTER TO DATETIME.

CONVERT “start_date” COLUMN FROM CHARACTER TO DATE FORMAT.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

CONVERT “end_date” COLUMN FROM CHARACTER TO DATE FORMAT.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘str()’ FUNCTION TO SEE LIST OF COLUMNS AND DATA TYPES NUMERIC, CHARACTER, DATETIME ETC.

‘started_at’AND ’ended_at’ CHARACTER DATA TYPE IS NOW POSIXlt.

‘data.frame’: 374952 obs. of 17 variables:

COLUMN START_STATION_NAME START_STATION_ID END_STATION_NAME AND END_STATION_ID.

EXPLORE CHARACTER VARIABLE TYPE IN “start_staion_name” AND “end_staion_name”

REPLACE ALL BLANK VALUES IN “start_station_name” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “start_station_id” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “end_station_name” COLUMN WITH NA VALUES.

REPLACE ALL BLANK VALUES IN “end_station_id” COLUMN WITH NA VALUES.

REMOVE ROWS WITH NA VALUES IN ALL COLUMNS.

‘data.frame’: 332196 obs. of 17 variables:

COLUMN MEMBER_CASUAL.

EXPLORE…CHARACTER VARIABLE TYPE IN “member_casual” COLUMN.

USE ‘unique ()’ FUNCTION TO FIND INDIVIDUAL VALUES IN COLUMN.

HOW MANY OBSERVATIONS FALL UNDER EACH USER TYPE?

BAR PLOT OF DATA DISTRIBUTION OF ‘member_casual’ COLUMN.

CHANGE VARIABLE FROM CHARACTER TO FACTOR.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE MEMBER CASUAL IS NOW A FACTOR.

ADD A CALCULATED FIELD FOR NEW COLUMN “ride_length_secs”.

CHECK DATA TYPE.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

CONVERT “ride_length_secs” FROM DIFFTIME TO NUMERIC TO RUN CALCULATIONS ON THE DATA.

CHECK DATA TYPE.

CREATE NEW COLUMN “ride_length_total” USING MUTATE FUNCTION.

CHECK DATA TYPE.

ADD COLUMN FOR DAY OF WEEK.

NUMERIC VALUE DAY OF WEEK SUNDAY = 1 MONDAY = 2 TUESDAY = 3 ETC, ETC…

CHARACTER DAY OF WEEK USING ABBREVIATED LABELS MON,TUE,WED ETC ETC…

CHANGE WEEKDAY DATA TYPE

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘levels’ FUNCTION TO CHECK FACTOR.

NOTE WEEKDAY. IS AN ORDERED FACTOR.

EXPLORE NUMERIC VARIABLE TYPE IN “weekday” COLUMN.

USE ‘class’ FUNCTION TO CHECK DATA TYPE IN COLUMN.

USE ‘summary()’ FUNCTION TO SUMMARIZE VALUES IN DATA FRAME.

BOX PLOT IS A GRAPHICAL REPRESENTATION TO SUMMARIZE DATA AND IDENTIFY OUTLIERS.