Lab 2

library(tidyverse)
library(openintro)

Exercise 1

Look carefully at these three histograms. How do they compare? Are features revealed in one that are obscured in another? The data became more and more detailed as the binwidth got higher. The most bin width showed that some flights came early, and the true amount of how many flights were on time. It split up crowded data.

data(nycflights)
names(nycflights)

##  [1] "year"      "month"     "day"       "dep_time"  "dep_delay" "arr_time" 
##  [7] "arr_delay" "carrier"   "tailnum"   "flight"    "origin"    "dest"     
## [13] "air_time"  "distance"  "hour"      "minute"

?nycflights
glimpse(nycflights)

## Rows: 32,735
## Columns: 16
## $ year      <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, …
## $ month     <int> 6, 5, 12, 5, 7, 1, 12, 8, 9, 4, 6, 11, 4, 3, 10, 1, 2, 8, 10…
## $ day       <int> 30, 7, 8, 14, 21, 1, 9, 13, 26, 30, 17, 22, 26, 25, 21, 23, …
## $ dep_time  <int> 940, 1657, 859, 1841, 1102, 1817, 1259, 1920, 725, 1323, 940…
## $ dep_delay <dbl> 15, -3, -1, -4, -3, -3, 14, 85, -10, 62, 5, 5, -2, 115, -4, …
## $ arr_time  <int> 1216, 2104, 1238, 2122, 1230, 2008, 1617, 2032, 1027, 1549, …
## $ arr_delay <dbl> -4, 10, 11, -34, -8, 3, 22, 71, -8, 60, -4, -2, 22, 91, -6, …
## $ carrier   <chr> "VX", "DL", "DL", "DL", "9E", "AA", "WN", "B6", "AA", "EV", …
## $ tailnum   <chr> "N626VA", "N3760C", "N712TW", "N914DL", "N823AY", "N3AXAA", …
## $ flight    <int> 407, 329, 422, 2391, 3652, 353, 1428, 1407, 2279, 4162, 20, …
## $ origin    <chr> "JFK", "JFK", "JFK", "JFK", "LGA", "LGA", "EWR", "JFK", "LGA…
## $ dest      <chr> "LAX", "SJU", "LAX", "TPA", "ORF", "ORD", "HOU", "IAD", "MIA…
## $ air_time  <dbl> 313, 216, 376, 135, 50, 138, 240, 48, 148, 110, 50, 161, 87,…
## $ distance  <dbl> 2475, 1598, 2475, 1005, 296, 733, 1411, 228, 1096, 820, 264,…
## $ hour      <dbl> 9, 16, 8, 18, 11, 18, 12, 19, 7, 13, 9, 13, 8, 20, 12, 20, 6…
## $ minute    <dbl> 40, 57, 59, 41, 2, 17, 59, 20, 25, 23, 40, 20, 9, 54, 17, 24…

ggplot(data = nycflights, aes(x = dep_delay)) +
  geom_histogram()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(data = nycflights, aes(x = dep_delay)) +
  geom_histogram(binwidth = 15)

ggplot(data = nycflights, aes(x = dep_delay)) +
  geom_histogram(binwidth = 150)

Exercise 2

Create a new data frame that includes flights headed to SFO in February, and save this data frame as sfo_feb_flights. How many flights meet these criteria? 68 flights meet this criteria.

lax_flights <- nycflights %>%
  filter(dest == "LAX")
ggplot(data = lax_flights, aes(x = dep_delay)) +
  geom_histogram()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

lax_flights %>%
  summarise(mean_dd   = mean(dep_delay), 
            median_dd = median(dep_delay), 
            n         = n())

## # A tibble: 1 × 3
##   mean_dd median_dd     n
##     <dbl>     <dbl> <int>
## 1    9.78        -1  1583

sfo_feb_flights <- nycflights %>%
  filter(dest == "SFO", month == 2)

sfo_feb_flights %>%
  group_by(origin) %>%
  summarise(median_dd = median(dep_delay), iqr_dd = IQR(dep_delay), n_flights = n())

## # A tibble: 2 × 4
##   origin median_dd iqr_dd n_flights
##   <chr>      <dbl>  <dbl>     <int>
## 1 EWR          0.5   5.75         8
## 2 JFK         -2.5  15.2         60

Exercise 3

Describe the distribution of the arrival delays of these flights using a histogram and appropriate summary statistics. Hint: The summary statistics you use should depend on the shape of the distribution.

ggplot(data = sfo_feb_flights, aes(x = arr_delay)) +
  geom_histogram()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Exercise 4

Calculate the median and interquartile range for arr_delays of flights in in the sfo_feb_flights data frame, grouped by carrier. Which carrier has the most variable arrival delays? Carrier AA has the highest median delay and highest Inter quartile range

sfo_feb_flights %>%
  group_by(origin) %>%
  summarise(median_dd = median(dep_delay), iqr_dd = IQR(dep_delay), n_flights = n())

## # A tibble: 2 × 4
##   origin median_dd iqr_dd n_flights
##   <chr>      <dbl>  <dbl>     <int>
## 1 EWR          0.5   5.75         8
## 2 JFK         -2.5  15.2         60

sfo_feb_flights %>%
  group_by(carrier) %>%
  summarise(median_dd = median(dep_delay), iqr_dd = IQR(dep_delay), n_flights = n())

## # A tibble: 5 × 4
##   carrier median_dd iqr_dd n_flights
##   <chr>       <dbl>  <dbl>     <int>
## 1 AA           13     32.8        10
## 2 B6           -2      3.5         6
## 3 DL           -3      6.5        19
## 4 UA           -2     13          21
## 5 VX           -3.5   16.8        12

Exercise 5

Suppose you really dislike departure delays and you want to schedule your travel in a month that minimizes your potential departure delay leaving NYC. One option is to choose the month with the lowest mean departure delay. Another option is to choose the month with the lowest median departure delay. What are the pros and cons of these two choices?

If you choose the lowest mean month will give you an accurate average of every day of the month. but it will change a lot if there is a small period of very high or low delay. The best mean month is October

If you use median there will be less of an effect from outliers but doesn’t give very much info at how much the data varies.

nycflights %>%
  group_by(month) %>%
  summarise(mean_dd = mean(dep_delay)) %>%
  arrange(desc(mean_dd))

## # A tibble: 12 × 2
##    month mean_dd
##    <int>   <dbl>
##  1     7   20.8 
##  2     6   20.4 
##  3    12   17.4 
##  4     4   14.6 
##  5     3   13.5 
##  6     5   13.3 
##  7     8   12.6 
##  8     2   10.7 
##  9     1   10.2 
## 10     9    6.87
## 11    11    6.10
## 12    10    5.88

nycflights %>%
  group_by(month) %>%
  summarise(median_dd = median(dep_delay)) %>%
  arrange(desc(median_dd))

## # A tibble: 12 × 2
##    month median_dd
##    <int>     <dbl>
##  1    12         1
##  2     6         0
##  3     7         0
##  4     3        -1
##  5     5        -1
##  6     8        -1
##  7     1        -2
##  8     2        -2
##  9     4        -2
## 10    11        -2
## 11     9        -3
## 12    10        -3

Exercise 6

If you were selecting an airport simply based on on time departure percentage, which NYC airport would you choose to fly out of? I would choose LGA

nycflights <- nycflights %>%
  mutate(dep_type = ifelse(dep_delay < 5, "on time", "delayed"))

nycflights %>%
  group_by(origin) %>%
  summarise(ot_dep_rate = sum(dep_type == "on time") / n()) %>%
  arrange(desc(ot_dep_rate))

## # A tibble: 3 × 2
##   origin ot_dep_rate
##   <chr>        <dbl>
## 1 LGA          0.728
## 2 JFK          0.694
## 3 EWR          0.637

ggplot(data = nycflights, aes(x = origin, fill = dep_type)) +
  geom_bar()

Exercise 7 and 8

nycflights <- nycflights %>%
  mutate(air_speed = distance / (air_time / 60))
nycflights %>% 
  group_by(origin) %>%
  summarise(distance = sum(dep_type == "on time") / n()) %>%
  arrange(desc(distance))

## # A tibble: 3 × 2
##   origin distance
##   <chr>     <dbl>
## 1 LGA       0.728
## 2 JFK       0.694
## 3 EWR       0.637

ggplot(data = nycflights, aes(x = distance, y = air_speed)) +
  geom_point()

Exercise 9

library(ggplot2)
colors <- c('AA' = 'red', 'DL' = 'green', 'UA' = 'blue')
nycflights_carry <- nycflights %>%
  filter(carrier %in% c("AA", "DL", "UA"))
ggplot(data = nycflights_carry, aes(x = dep_delay, y = arr_delay, color = carrier)) +
  geom_point(size = 3) +
  scale_color_manual(values = colors) +
  labs(
    x = 'dep_delay',
    y = 'arr_delay',
    title = 'Dot Plot with Colors based on Carrier'
  )

LS0tCnRpdGxlOiAiTGFiIDIiCmF1dGhvcjogIkdyYW50IFNsaW5nbHVmZiIKZGF0ZTogImByIFN5cy5EYXRlKClgIgpvdXRwdXQ6IG9wZW5pbnRybzo6bGFiX3JlcG9ydAotLS0KCmBgYHtyIGxvYWQtcGFja2FnZXMsIG1lc3NhZ2U9RkFMU0V9CmxpYnJhcnkodGlkeXZlcnNlKQpsaWJyYXJ5KG9wZW5pbnRybykKYGBgCgojIyMgRXhlcmNpc2UgMQoKTG9vayBjYXJlZnVsbHkgYXQgdGhlc2UgdGhyZWUgaGlzdG9ncmFtcy4gSG93IGRvIHRoZXkgY29tcGFyZT8gQXJlIGZlYXR1cmVzIHJldmVhbGVkIGluIG9uZSB0aGF0IGFyZSBvYnNjdXJlZCBpbiBhbm90aGVyPyBUaGUgZGF0YSBiZWNhbWUgbW9yZSBhbmQgbW9yZSBkZXRhaWxlZCBhcyB0aGUgYmlud2lkdGggZ290IGhpZ2hlci4gVGhlIG1vc3QgYmluIHdpZHRoIHNob3dlZCB0aGF0IHNvbWUgZmxpZ2h0cyBjYW1lIGVhcmx5LCBhbmQgdGhlIHRydWUgYW1vdW50IG9mIGhvdyBtYW55IGZsaWdodHMgd2VyZSBvbiB0aW1lLiBJdCBzcGxpdCB1cCBjcm93ZGVkIGRhdGEuCgpgYGB7ciBjb2RlLWNodW5rLWxhYmVsIDF9CmRhdGEobnljZmxpZ2h0cykKbmFtZXMobnljZmxpZ2h0cykKP255Y2ZsaWdodHMKZ2xpbXBzZShueWNmbGlnaHRzKQoKZ2dwbG90KGRhdGEgPSBueWNmbGlnaHRzLCBhZXMoeCA9IGRlcF9kZWxheSkpICsKICBnZW9tX2hpc3RvZ3JhbSgpCgpnZ3Bsb3QoZGF0YSA9IG55Y2ZsaWdodHMsIGFlcyh4ID0gZGVwX2RlbGF5KSkgKwogIGdlb21faGlzdG9ncmFtKGJpbndpZHRoID0gMTUpCgpnZ3Bsb3QoZGF0YSA9IG55Y2ZsaWdodHMsIGFlcyh4ID0gZGVwX2RlbGF5KSkgKwogIGdlb21faGlzdG9ncmFtKGJpbndpZHRoID0gMTUwKQoKYGBgCgojIyMgRXhlcmNpc2UgMgoKQ3JlYXRlIGEgbmV3IGRhdGEgZnJhbWUgdGhhdCBpbmNsdWRlcyBmbGlnaHRzIGhlYWRlZCB0byBTRk8gaW4gRmVicnVhcnksIGFuZCBzYXZlIHRoaXMgZGF0YSBmcmFtZSBhcyBzZm9fZmViX2ZsaWdodHMuIEhvdyBtYW55IGZsaWdodHMgbWVldCB0aGVzZSBjcml0ZXJpYT8gNjggZmxpZ2h0cyBtZWV0IHRoaXMgY3JpdGVyaWEuCgpgYGB7ciBjb2RlLWNodW5rLWxhYmVsIDJ9CmxheF9mbGlnaHRzIDwtIG55Y2ZsaWdodHMgJT4lCiAgZmlsdGVyKGRlc3QgPT0gIkxBWCIpCmdncGxvdChkYXRhID0gbGF4X2ZsaWdodHMsIGFlcyh4ID0gZGVwX2RlbGF5KSkgKwogIGdlb21faGlzdG9ncmFtKCkKCmxheF9mbGlnaHRzICU+JQogIHN1bW1hcmlzZShtZWFuX2RkICAgPSBtZWFuKGRlcF9kZWxheSksIAogICAgICAgICAgICBtZWRpYW5fZGQgPSBtZWRpYW4oZGVwX2RlbGF5KSwgCiAgICAgICAgICAgIG4gICAgICAgICA9IG4oKSkKCnNmb19mZWJfZmxpZ2h0cyA8LSBueWNmbGlnaHRzICU+JQogIGZpbHRlcihkZXN0ID09ICJTRk8iLCBtb250aCA9PSAyKQoKc2ZvX2ZlYl9mbGlnaHRzICU+JQogIGdyb3VwX2J5KG9yaWdpbikgJT4lCiAgc3VtbWFyaXNlKG1lZGlhbl9kZCA9IG1lZGlhbihkZXBfZGVsYXkpLCBpcXJfZGQgPSBJUVIoZGVwX2RlbGF5KSwgbl9mbGlnaHRzID0gbigpKQpgYGAKCiMjIyBFeGVyY2lzZSAzCgpEZXNjcmliZSB0aGUgZGlzdHJpYnV0aW9uIG9mIHRoZSBhcnJpdmFsIGRlbGF5cyBvZiB0aGVzZSBmbGlnaHRzIHVzaW5nIGEgaGlzdG9ncmFtIGFuZCBhcHByb3ByaWF0ZSBzdW1tYXJ5IHN0YXRpc3RpY3MuIEhpbnQ6IFRoZSBzdW1tYXJ5IHN0YXRpc3RpY3MgeW91IHVzZSBzaG91bGQgZGVwZW5kIG9uIHRoZSBzaGFwZSBvZiB0aGUgZGlzdHJpYnV0aW9uLgoKYGBge3IgY29kZS1jaHVuay1sYWJlbCAzfQpnZ3Bsb3QoZGF0YSA9IHNmb19mZWJfZmxpZ2h0cywgYWVzKHggPSBhcnJfZGVsYXkpKSArCiAgZ2VvbV9oaXN0b2dyYW0oKQpgYGAKCiMjIyBFeGVyY2lzZSA0CgpDYWxjdWxhdGUgdGhlIG1lZGlhbiBhbmQgaW50ZXJxdWFydGlsZSByYW5nZSBmb3IgYXJyX2RlbGF5cyBvZiBmbGlnaHRzIGluIGluIHRoZSBzZm9fZmViX2ZsaWdodHMgZGF0YSBmcmFtZSwgZ3JvdXBlZCBieSBjYXJyaWVyLiBXaGljaCBjYXJyaWVyIGhhcyB0aGUgbW9zdCB2YXJpYWJsZSBhcnJpdmFsIGRlbGF5cz8gQ2FycmllciBBQSBoYXMgdGhlIGhpZ2hlc3QgbWVkaWFuIGRlbGF5IGFuZCBoaWdoZXN0IEludGVyIHF1YXJ0aWxlIHJhbmdlCgpgYGB7ciBjb2RlLWNodW5rLWxhYmVsIDR9CnNmb19mZWJfZmxpZ2h0cyAlPiUKICBncm91cF9ieShvcmlnaW4pICU+JQogIHN1bW1hcmlzZShtZWRpYW5fZGQgPSBtZWRpYW4oZGVwX2RlbGF5KSwgaXFyX2RkID0gSVFSKGRlcF9kZWxheSksIG5fZmxpZ2h0cyA9IG4oKSkKCnNmb19mZWJfZmxpZ2h0cyAlPiUKICBncm91cF9ieShjYXJyaWVyKSAlPiUKICBzdW1tYXJpc2UobWVkaWFuX2RkID0gbWVkaWFuKGRlcF9kZWxheSksIGlxcl9kZCA9IElRUihkZXBfZGVsYXkpLCBuX2ZsaWdodHMgPSBuKCkpCmBgYAoKIyMjIEV4ZXJjaXNlIDUKClN1cHBvc2UgeW91IHJlYWxseSBkaXNsaWtlIGRlcGFydHVyZSBkZWxheXMgYW5kIHlvdSB3YW50IHRvIHNjaGVkdWxlIHlvdXIgdHJhdmVsIGluIGEgbW9udGggdGhhdCBtaW5pbWl6ZXMgeW91ciBwb3RlbnRpYWwgZGVwYXJ0dXJlIGRlbGF5IGxlYXZpbmcgTllDLiBPbmUgb3B0aW9uIGlzIHRvIGNob29zZSB0aGUgbW9udGggd2l0aCB0aGUgbG93ZXN0IG1lYW4gZGVwYXJ0dXJlIGRlbGF5LiBBbm90aGVyIG9wdGlvbiBpcyB0byBjaG9vc2UgdGhlIG1vbnRoIHdpdGggdGhlIGxvd2VzdCBtZWRpYW4gZGVwYXJ0dXJlIGRlbGF5LiBXaGF0IGFyZSB0aGUgcHJvcyBhbmQgY29ucyBvZiB0aGVzZSB0d28gY2hvaWNlcz8KCklmIHlvdSBjaG9vc2UgdGhlIGxvd2VzdCBtZWFuIG1vbnRoIHdpbGwgZ2l2ZSB5b3UgYW4gYWNjdXJhdGUgYXZlcmFnZSBvZiBldmVyeSBkYXkgb2YgdGhlIG1vbnRoLiBidXQgaXQgd2lsbCBjaGFuZ2UgYSBsb3QgaWYgdGhlcmUgaXMgYSBzbWFsbCBwZXJpb2Qgb2YgdmVyeSBoaWdoIG9yIGxvdyBkZWxheS4gVGhlIGJlc3QgbWVhbiBtb250aCBpcyBPY3RvYmVyCgpJZiB5b3UgdXNlIG1lZGlhbiB0aGVyZSB3aWxsIGJlIGxlc3Mgb2YgYW4gZWZmZWN0IGZyb20gb3V0bGllcnMgYnV0IGRvZXNuJ3QgZ2l2ZSB2ZXJ5IG11Y2ggaW5mbyBhdCBob3cgbXVjaCB0aGUgZGF0YSB2YXJpZXMuCgpgYGB7ciBjb2RlLWNodW5rLWxhYmVsIDV9Cm55Y2ZsaWdodHMgJT4lCiAgZ3JvdXBfYnkobW9udGgpICU+JQogIHN1bW1hcmlzZShtZWFuX2RkID0gbWVhbihkZXBfZGVsYXkpKSAlPiUKICBhcnJhbmdlKGRlc2MobWVhbl9kZCkpCgpueWNmbGlnaHRzICU+JQogIGdyb3VwX2J5KG1vbnRoKSAlPiUKICBzdW1tYXJpc2UobWVkaWFuX2RkID0gbWVkaWFuKGRlcF9kZWxheSkpICU+JQogIGFycmFuZ2UoZGVzYyhtZWRpYW5fZGQpKQpgYGAKCiMjIyBFeGVyY2lzZSA2CgpJZiB5b3Ugd2VyZSBzZWxlY3RpbmcgYW4gYWlycG9ydCBzaW1wbHkgYmFzZWQgb24gb24gdGltZSBkZXBhcnR1cmUgcGVyY2VudGFnZSwgd2hpY2ggTllDIGFpcnBvcnQgd291bGQgeW91IGNob29zZSB0byBmbHkgb3V0IG9mPyBJIHdvdWxkIGNob29zZSBMR0EKCmBgYHtyIGNvZGUtY2h1bmstbGFiZWwgNn0KbnljZmxpZ2h0cyA8LSBueWNmbGlnaHRzICU+JQogIG11dGF0ZShkZXBfdHlwZSA9IGlmZWxzZShkZXBfZGVsYXkgPCA1LCAib24gdGltZSIsICJkZWxheWVkIikpCgpueWNmbGlnaHRzICU+JQogIGdyb3VwX2J5KG9yaWdpbikgJT4lCiAgc3VtbWFyaXNlKG90X2RlcF9yYXRlID0gc3VtKGRlcF90eXBlID09ICJvbiB0aW1lIikgLyBuKCkpICU+JQogIGFycmFuZ2UoZGVzYyhvdF9kZXBfcmF0ZSkpCmdncGxvdChkYXRhID0gbnljZmxpZ2h0cywgYWVzKHggPSBvcmlnaW4sIGZpbGwgPSBkZXBfdHlwZSkpICsKICBnZW9tX2JhcigpCmBgYAoKIyMjIEV4ZXJjaXNlIDcgYW5kIDgKCmBgYHtyIGNvZGUtY2h1bmstbGFiZWwgNyA4fQpueWNmbGlnaHRzIDwtIG55Y2ZsaWdodHMgJT4lCiAgbXV0YXRlKGFpcl9zcGVlZCA9IGRpc3RhbmNlIC8gKGFpcl90aW1lIC8gNjApKQpueWNmbGlnaHRzICU+JSAKICBncm91cF9ieShvcmlnaW4pICU+JQogIHN1bW1hcmlzZShkaXN0YW5jZSA9IHN1bShkZXBfdHlwZSA9PSAib24gdGltZSIpIC8gbigpKSAlPiUKICBhcnJhbmdlKGRlc2MoZGlzdGFuY2UpKQpnZ3Bsb3QoZGF0YSA9IG55Y2ZsaWdodHMsIGFlcyh4ID0gZGlzdGFuY2UsIHkgPSBhaXJfc3BlZWQpKSArCiAgZ2VvbV9wb2ludCgpCmBgYAoKIyMjIEV4ZXJjaXNlIDkKCi0gICA8ZGl2PgoKICAgIGBgYHtyIGNvZGUtY2h1bmstbGFiZWwgOX0KICAgIGxpYnJhcnkoZ2dwbG90MikKICAgIGNvbG9ycyA8LSBjKCdBQScgPSAncmVkJywgJ0RMJyA9ICdncmVlbicsICdVQScgPSAnYmx1ZScpCiAgICBueWNmbGlnaHRzX2NhcnJ5IDwtIG55Y2ZsaWdodHMgJT4lCiAgICAgIGZpbHRlcihjYXJyaWVyICVpbiUgYygiQUEiLCAiREwiLCAiVUEiKSkKICAgIGdncGxvdChkYXRhID0gbnljZmxpZ2h0c19jYXJyeSwgYWVzKHggPSBkZXBfZGVsYXksIHkgPSBhcnJfZGVsYXksIGNvbG9yID0gY2FycmllcikpICsKICAgICAgZ2VvbV9wb2ludChzaXplID0gMykgKwogICAgICBzY2FsZV9jb2xvcl9tYW51YWwodmFsdWVzID0gY29sb3JzKSArCiAgICAgIGxhYnMoCiAgICAgICAgeCA9ICdkZXBfZGVsYXknLAogICAgICAgIHkgPSAnYXJyX2RlbGF5JywKICAgICAgICB0aXRsZSA9ICdEb3QgUGxvdCB3aXRoIENvbG9ycyBiYXNlZCBvbiBDYXJyaWVyJwogICAgICApCiAgICBgYGAKCiAgICA8L2Rpdj4K