Data Visualization Notes

These are my notes for GRD 610A: Data Visualization II in Winter 2022 at the College for Creative Studies. These notes are for my work in the book Data Visualization by Kieran Healy (Princeton University Press, 2019).

Get Started

Everything has a name

Objects in R are created and referred to by their names. Certain names are not allowed because they are reserved words such as TRUE, if, mean(), and NA. Names also cannot start with a number or contain spaces. There are different naming conventions.

Snake Case
my_data
this_is_snake_case

Camel Case
myData
thisIsCamelCase

Pascal Case
MyData
ThisIsPascalCase

Pick one naming convention and stick with it. Be consistent; don’t switch between conventions. I recommend snake case.

# This is a comment (it starts with #)

my_data <- c(1, 2, 3, 4) # Assign using <- ; use ALT + - or OPTION + -

My_Data

## Error in eval(expr, envir, enclos): object 'My_Data' not found

# Cannot be found because we called it my_data (lowercase)

# Now we can see it
my_data

## [1] 1 2 3 4

Everything is an object; using functions

Think of functions like a recipe. The arguments of the function are the ingredients and what happens within the function is the sequence of cooking steps.

c(1, 2, 3, 1, 3, 5, 25) # c() is the combine function, it puts things together into a vector/list

## [1]  1  2  3  1  3  5 25

my_numbers <- c(1, 2, 3, 1, 3, 5, 25)
your_numbers <- c(5, 31, 71, 1, 3, 21, 6)

my_numbers

## [1]  1  2  3  1  3  5 25

mean(x = my_numbers)

## [1] 5.714286

mean(my_numbers) # you don't have to specify the argument names, but order matters if you do not specify

## [1] 5.714286

mean(x = your_numbers)

## [1] 19.71429

my_summary <- summary(my_numbers)

my_summary

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.500   3.000   5.714   4.000  25.000

table(my_numbers)

## my_numbers
##  1  2  3  5 25 
##  2  1  2  1  1

sd(my_numbers)

## [1] 8.616153

my_numbers * 5

## [1]   5  10  15   5  15  25 125

my_numbers + 1

## [1]  2  3  4  2  4  6 26

my_numbers + my_numbers # How is this different than the last line?

## [1]  2  4  6  2  6 10 50

# If you're not sure what an object is, ask for its class or type

class(my_numbers)

## [1] "numeric"

class(my_summary)

## [1] "summaryDefault" "table"

class(summary)

## [1] "function"

my_new_vector <- c(my_numbers, "Apple") # What happens if we combine a word with numbers?

my_new_vector

## [1] "1"     "2"     "3"     "1"     "3"     "5"     "25"    "Apple"

class(my_new_vector)

## [1] "character"

# Let's look at a new dataset

titanic

##       fate    sex    n percent
## 1 perished   male 1364    62.0
## 2 perished female  126     5.7
## 3 survived   male  367    16.7
## 4 survived female  344    15.6

class(titanic)

## [1] "data.frame"

# Titanic is a data frame, which is like a table
# The $ operator can be used to access a column of a data frame by name

titanic$percent

## [1] 62.0  5.7 16.7 15.6

# Tibbles are slightly different than data frames. They are also data tables, but they provide more information.

titanic_tb <- as_tibble(titanic)

titanic_tb # How is does this compare to titanic above?

## # A tibble: 4 x 4
##   fate     sex        n percent
##   <fct>    <fct>  <dbl>   <dbl>
## 1 perished male    1364    62  
## 2 perished female   126     5.7
## 3 survived male     367    16.7
## 4 survived female   344    15.6

# To see inside an object, ask for its structure

str(my_numbers)

##  num [1:7] 1 2 3 1 3 5 25

str(my_summary)

##  'summaryDefault' Named num [1:6] 1 1.5 3 5.71 4 ...
##  - attr(*, "names")= chr [1:6] "Min." "1st Qu." "Median" "Mean" ...

Programming in R can be challenging and it takes time to get used to. Be patient and take a break if you get stuck. Make sure parentheses are opened and closed. Complete your commands (look out for the + in the console). Take your time and lookout for typos.

Get Data into R

In this section, we will get data from a URL and make a quick figure.

# Data source
url <- "https://cdn.rawgit.com/kjhealy/viz-organdata/master/organdonation.csv"

# Read the CSV from the URL
organs <- read_csv(file = url)

## Rows: 238 Columns: 21

## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr  (7): country, world, opt, consent.law, consent.practice, consistent, ccode
## dbl (14): year, donors, pop, pop.dens, gdp, gdp.lag, health, health.lag, pub...

## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

# Take a quick look at the data
glimpse(organs)

## Rows: 238
## Columns: 21
## $ country          <chr> "Australia", "Australia", "Australia", "Australia", "~
## $ year             <dbl> NA, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1~
## $ donors           <dbl> NA, 12.09, 12.35, 12.51, 10.25, 10.18, 10.59, 10.26, ~
## $ pop              <dbl> 17065, 17284, 17495, 17667, 17855, 18072, 18311, 1851~
## $ pop.dens         <dbl> 0.2204433, 0.2232723, 0.2259980, 0.2282198, 0.2306484~
## $ gdp              <dbl> 16774, 17171, 17914, 18883, 19849, 21079, 21923, 2296~
## $ gdp.lag          <dbl> 16591, 16774, 17171, 17914, 18883, 19849, 21079, 2192~
## $ health           <dbl> 1300, 1379, 1455, 1540, 1626, 1737, 1846, 1948, 2077,~
## $ health.lag       <dbl> 1224, 1300, 1379, 1455, 1540, 1626, 1737, 1846, 1948,~
## $ pubhealth        <dbl> 4.8, 5.4, 5.4, 5.4, 5.4, 5.5, 5.6, 5.7, 5.9, 6.1, 6.2~
## $ roads            <dbl> 136.59537, 122.25179, 112.83224, 110.54508, 107.98096~
## $ cerebvas         <dbl> 682, 647, 630, 611, 631, 592, 576, 525, 516, 493, 474~
## $ assault          <dbl> 21, 19, 17, 18, 17, 16, 17, 17, 16, 15, 16, 15, 14, N~
## $ external         <dbl> 444, 425, 406, 376, 387, 371, 395, 385, 410, 409, 393~
## $ txp.pop          <dbl> 0.9375916, 0.9257116, 0.9145470, 0.9056433, 0.8961075~
## $ world            <chr> "Liberal", "Liberal", "Liberal", "Liberal", "Liberal"~
## $ opt              <chr> "In", "In", "In", "In", "In", "In", "In", "In", "In",~
## $ consent.law      <chr> "Informed", "Informed", "Informed", "Informed", "Info~
## $ consent.practice <chr> "Informed", "Informed", "Informed", "Informed", "Info~
## $ consistent       <chr> "Yes", "Yes", "Yes", "Yes", "Yes", "Yes", "Yes", "Yes~
## $ ccode            <chr> "Oz", "Oz", "Oz", "Oz", "Oz", "Oz", "Oz", "Oz", "Oz",~

# View(organs) # Run in RStudio

# Another way to view data 
gapminder

## # A tibble: 1,704 x 6
##    country     continent  year lifeExp      pop gdpPercap
##    <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
##  1 Afghanistan Asia       1952    28.8  8425333      779.
##  2 Afghanistan Asia       1957    30.3  9240934      821.
##  3 Afghanistan Asia       1962    32.0 10267083      853.
##  4 Afghanistan Asia       1967    34.0 11537966      836.
##  5 Afghanistan Asia       1972    36.1 13079460      740.
##  6 Afghanistan Asia       1977    38.4 14880372      786.
##  7 Afghanistan Asia       1982    39.9 12881816      978.
##  8 Afghanistan Asia       1987    40.8 13867957      852.
##  9 Afghanistan Asia       1992    41.7 16317921      649.
## 10 Afghanistan Asia       1997    41.8 22227415      635.
## # ... with 1,694 more rows

# Make a plot object
p <- ggplot(data = gapminder,
            mapping = aes(x = gdpPercap, 
                          y = lifeExp))

# Create a scatterplot
p + geom_point()

Make a Plot

Show the Right Numbers

Graph Tables, Make Labels, Add Notes

Work with Models

Draw Maps

Refine your Plots

LS0tDQp0aXRsZTogIkRhdGEgVmlzdWFsaXphdGlvbiBOb3RlcyINCmF1dGhvcjogIkplbm4gU2NoaWxsaW5nIg0KZGF0ZTogIjIwMjItMDEtMTkiDQpvdXRwdXQ6DQogaHRtbF9kb2N1bWVudDoNCiAgdGhlbWU6ICJmbGF0bHkiICMgVGhlbWUgR2FsbGVyeTogaHR0cHM6Ly93d3cuZGF0YWRyZWFtaW5nLm9yZy9wb3N0L3ItbWFya2Rvd24tdGhlbWUtZ2FsbGVyeS8NCiAgdG9jOiBUUlVFDQogIHRvY19mbG9hdDogVFJVRQ0KICBjb2RlX2Rvd25sb2FkOiBUUlVFDQotLS0NCiAgIA0KIyMgRGF0YSBWaXN1YWxpemF0aW9uIE5vdGVzDQoNClRoZXNlIGFyZSBteSBub3RlcyBmb3IgKipHUkQgNjEwQTogRGF0YSBWaXN1YWxpemF0aW9uIElJKiogaW4gV2ludGVyIDIwMjIgYXQgdGhlIENvbGxlZ2UgZm9yIENyZWF0aXZlIFN0dWRpZXMuIFRoZXNlIG5vdGVzIGFyZSBmb3IgbXkgd29yayBpbiB0aGUgYm9vayAqRGF0YSBWaXN1YWxpemF0aW9uKiBieSBLaWVyYW4gSGVhbHkgKFByaW5jZXRvbiBVbml2ZXJzaXR5IFByZXNzLCAyMDE5KS4gDQoNCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfQ0KDQojIyBCeSBkZWZ1bHQsIHNob3cgY29kZSBmb3IgYWxsIGNodW5rcyBpbiB0aGUga25pdHRlZCBkb2N1bWVudCwNCiMjIGFzIHdlbGwgYXMgdGhlIG91dHB1dC4gVG8gb3ZlcnJpZGUgZm9yIGEgcGFydGljdWxhciBjaHVuaw0KIyMgdXNlIGVjaG8gPSBGQUxTRSBpbiBpdHMgb3B0aW9ucy4NCmtuaXRyOjpvcHRzX2NodW5rJHNldChlY2hvID0gVFJVRSkgDQoNCiMjIFNldCB0aGUgZGVmYXVsdCBzaXplIG9mIGZpZ3VyZXMNCmtuaXRyOjpvcHRzX2NodW5rJHNldChmaWcud2lkdGg9OCwgZmlnLmhlaWdodD01KSAgDQoNCiMjIExvYWQgdGhlIGxpYnJhcmllcyB3ZSB3aWxsIGJlIHVzaW5nDQpsaWJyYXJ5KGdhcG1pbmRlcikNCmxpYnJhcnkoaGVyZSkNCmxpYnJhcnkoc29jdml6KQ0KbGlicmFyeSh0aWR5dmVyc2UpDQoNCiMjIExpYnJhcmllczogSW5zdGFsbCBvbmNlIHBlciBtYWNoaW5lLCBsb2FkIG9uY2UgcGVyIFIgc2Vzc2lvbg0KDQojIyBXZWVrIDIgLyBDaGFwdGVyIDIgTm90ZXMgcHVibGlzaGVkIGhlcmU6IA0KDQpgYGANCg0KDQojIyBHZXQgU3RhcnRlZA0KDQojIyMgRXZlcnl0aGluZyBoYXMgYSBuYW1lDQpPYmplY3RzIGluIFIgYXJlIGNyZWF0ZWQgYW5kIHJlZmVycmVkIHRvIGJ5IHRoZWlyIG5hbWVzLiBDZXJ0YWluIG5hbWVzIGFyZSBub3QgYWxsb3dlZCBiZWNhdXNlIHRoZXkgYXJlIHJlc2VydmVkIHdvcmRzIHN1Y2ggYXMgYGBUUlVFYGAsIGBgaWZgYCwgYGBtZWFuKClgYCwgYW5kIGBgTkFgYC4gTmFtZXMgYWxzbyBjYW5ub3Qgc3RhcnQgd2l0aCBhIG51bWJlciBvciBjb250YWluIHNwYWNlcy4gVGhlcmUgYXJlIGRpZmZlcmVudCBuYW1pbmcgY29udmVudGlvbnMuICANCg0KKipTbmFrZSBDYXNlKiogIA0KYGBteV9kYXRhYGAgIA0KYGB0aGlzX2lzX3NuYWtlX2Nhc2VgYCAgDQoNCioqQ2FtZWwgQ2FzZSoqICANCmBgbXlEYXRhYGAgIA0KYGB0aGlzSXNDYW1lbENhc2VgYA0KDQoqKlBhc2NhbCBDYXNlKiogIA0KYGBNeURhdGFgYCAgDQpgYFRoaXNJc1Bhc2NhbENhc2VgYA0KDQpQaWNrIG9uZSBuYW1pbmcgY29udmVudGlvbiBhbmQgc3RpY2sgd2l0aCBpdC4gQmUgY29uc2lzdGVudDsgZG9uJ3Qgc3dpdGNoIGJldHdlZW4gY29udmVudGlvbnMuIEkgcmVjb21tZW5kIHNuYWtlIGNhc2UuDQoNCmBgYHtyIG5hbWluZywgZXJyb3I9VFJVRX0NCg0KIyBUaGlzIGlzIGEgY29tbWVudCAoaXQgc3RhcnRzIHdpdGggIykNCg0KbXlfZGF0YSA8LSBjKDEsIDIsIDMsIDQpICMgQXNzaWduIHVzaW5nIDwtIDsgdXNlIEFMVCArIC0gb3IgT1BUSU9OICsgLQ0KDQpNeV9EYXRhICANCiMgQ2Fubm90IGJlIGZvdW5kIGJlY2F1c2Ugd2UgY2FsbGVkIGl0IG15X2RhdGEgKGxvd2VyY2FzZSkNCg0KIyBOb3cgd2UgY2FuIHNlZSBpdA0KbXlfZGF0YSANCg0KYGBgDQoNCiMjIyBFdmVyeXRoaW5nIGlzIGFuIG9iamVjdDsgdXNpbmcgZnVuY3Rpb25zDQpUaGluayBvZiBmdW5jdGlvbnMgbGlrZSBhIHJlY2lwZS4gVGhlIGFyZ3VtZW50cyBvZiB0aGUgZnVuY3Rpb24gYXJlIHRoZSBpbmdyZWRpZW50cyBhbmQgd2hhdCBoYXBwZW5zIHdpdGhpbiB0aGUgZnVuY3Rpb24gaXMgdGhlIHNlcXVlbmNlIG9mIGNvb2tpbmcgc3RlcHMuIA0KYGBge3Igb2JqZWN0cy1mdW5jdGlvbnN9DQoNCmMoMSwgMiwgMywgMSwgMywgNSwgMjUpICMgYygpIGlzIHRoZSBjb21iaW5lIGZ1bmN0aW9uLCBpdCBwdXRzIHRoaW5ncyB0b2dldGhlciBpbnRvIGEgdmVjdG9yL2xpc3QNCg0KbXlfbnVtYmVycyA8LSBjKDEsIDIsIDMsIDEsIDMsIDUsIDI1KQ0KeW91cl9udW1iZXJzIDwtIGMoNSwgMzEsIDcxLCAxLCAzLCAyMSwgNikNCg0KbXlfbnVtYmVycw0KDQptZWFuKHggPSBteV9udW1iZXJzKQ0KbWVhbihteV9udW1iZXJzKSAjIHlvdSBkb24ndCBoYXZlIHRvIHNwZWNpZnkgdGhlIGFyZ3VtZW50IG5hbWVzLCBidXQgb3JkZXIgbWF0dGVycyBpZiB5b3UgZG8gbm90IHNwZWNpZnkNCg0KbWVhbih4ID0geW91cl9udW1iZXJzKQ0KDQpteV9zdW1tYXJ5IDwtIHN1bW1hcnkobXlfbnVtYmVycykNCg0KbXlfc3VtbWFyeQ0KDQp0YWJsZShteV9udW1iZXJzKQ0KDQpzZChteV9udW1iZXJzKQ0KDQpteV9udW1iZXJzICogNQ0KDQpteV9udW1iZXJzICsgMQ0KDQpteV9udW1iZXJzICsgbXlfbnVtYmVycyAjIEhvdyBpcyB0aGlzIGRpZmZlcmVudCB0aGFuIHRoZSBsYXN0IGxpbmU/DQoNCiMgSWYgeW91J3JlIG5vdCBzdXJlIHdoYXQgYW4gb2JqZWN0IGlzLCBhc2sgZm9yIGl0cyBjbGFzcyBvciB0eXBlDQoNCmNsYXNzKG15X251bWJlcnMpDQoNCmNsYXNzKG15X3N1bW1hcnkpDQoNCmNsYXNzKHN1bW1hcnkpDQoNCm15X25ld192ZWN0b3IgPC0gYyhteV9udW1iZXJzLCAiQXBwbGUiKSAjIFdoYXQgaGFwcGVucyBpZiB3ZSBjb21iaW5lIGEgd29yZCB3aXRoIG51bWJlcnM/DQoNCm15X25ld192ZWN0b3INCg0KY2xhc3MobXlfbmV3X3ZlY3RvcikNCg0KIyBMZXQncyBsb29rIGF0IGEgbmV3IGRhdGFzZXQNCg0KdGl0YW5pYw0KDQpjbGFzcyh0aXRhbmljKSANCg0KIyBUaXRhbmljIGlzIGEgZGF0YSBmcmFtZSwgd2hpY2ggaXMgbGlrZSBhIHRhYmxlDQojIFRoZSAkIG9wZXJhdG9yIGNhbiBiZSB1c2VkIHRvIGFjY2VzcyBhIGNvbHVtbiBvZiBhIGRhdGEgZnJhbWUgYnkgbmFtZQ0KDQp0aXRhbmljJHBlcmNlbnQNCg0KIyBUaWJibGVzIGFyZSBzbGlnaHRseSBkaWZmZXJlbnQgdGhhbiBkYXRhIGZyYW1lcy4gVGhleSBhcmUgYWxzbyBkYXRhIHRhYmxlcywgYnV0IHRoZXkgcHJvdmlkZSBtb3JlIGluZm9ybWF0aW9uLg0KDQp0aXRhbmljX3RiIDwtIGFzX3RpYmJsZSh0aXRhbmljKQ0KDQp0aXRhbmljX3RiICMgSG93IGlzIGRvZXMgdGhpcyBjb21wYXJlIHRvIHRpdGFuaWMgYWJvdmU/DQoNCiMgVG8gc2VlIGluc2lkZSBhbiBvYmplY3QsIGFzayBmb3IgaXRzIHN0cnVjdHVyZQ0KDQpzdHIobXlfbnVtYmVycykNCg0Kc3RyKG15X3N1bW1hcnkpDQoNCmBgYA0KUHJvZ3JhbW1pbmcgaW4gUiBjYW4gYmUgY2hhbGxlbmdpbmcgYW5kIGl0IHRha2VzIHRpbWUgdG8gZ2V0IHVzZWQgdG8uIEJlIHBhdGllbnQgYW5kIHRha2UgYSBicmVhayBpZiB5b3UgZ2V0IHN0dWNrLiBNYWtlIHN1cmUgcGFyZW50aGVzZXMgYXJlIG9wZW5lZCBhbmQgY2xvc2VkLiBDb21wbGV0ZSB5b3VyIGNvbW1hbmRzIChsb29rIG91dCBmb3IgdGhlICsgaW4gdGhlIGNvbnNvbGUpLiBUYWtlIHlvdXIgdGltZSBhbmQgbG9va291dCBmb3IgdHlwb3MuIA0KDQojIyMgR2V0IERhdGEgaW50byBSDQpJbiB0aGlzIHNlY3Rpb24sIHdlIHdpbGwgZ2V0IGRhdGEgZnJvbSBhIFVSTCBhbmQgbWFrZSBhIHF1aWNrIGZpZ3VyZS4NCg0KYGBge3IgZ2V0LWRhdGF9DQoNCiMgRGF0YSBzb3VyY2UNCnVybCA8LSAiaHR0cHM6Ly9jZG4ucmF3Z2l0LmNvbS9ramhlYWx5L3Zpei1vcmdhbmRhdGEvbWFzdGVyL29yZ2FuZG9uYXRpb24uY3N2Ig0KDQojIFJlYWQgdGhlIENTViBmcm9tIHRoZSBVUkwNCm9yZ2FucyA8LSByZWFkX2NzdihmaWxlID0gdXJsKQ0KDQojIFRha2UgYSBxdWljayBsb29rIGF0IHRoZSBkYXRhDQpnbGltcHNlKG9yZ2FucykNCg0KIyBWaWV3KG9yZ2FucykgIyBSdW4gaW4gUlN0dWRpbw0KDQpgYGANCg0KYGBge3IgbWFrZS1maWd1cmV9DQoNCiMgQW5vdGhlciB3YXkgdG8gdmlldyBkYXRhIA0KZ2FwbWluZGVyDQoNCiMgTWFrZSBhIHBsb3Qgb2JqZWN0DQpwIDwtIGdncGxvdChkYXRhID0gZ2FwbWluZGVyLA0KICAgICAgICAgICAgbWFwcGluZyA9IGFlcyh4ID0gZ2RwUGVyY2FwLCANCiAgICAgICAgICAgICAgICAgICAgICAgICAgeSA9IGxpZmVFeHApKQ0KDQojIENyZWF0ZSBhIHNjYXR0ZXJwbG90DQpwICsgZ2VvbV9wb2ludCgpDQoNCmBgYA0KDQoNCiMjIE1ha2UgYSBQbG90DQoNCmBgYHtyfQ0KDQpgYGANCg0KDQojIyBTaG93IHRoZSBSaWdodCBOdW1iZXJzDQoNCmBgYHtyfQ0KDQpgYGANCg0KDQojIyBHcmFwaCBUYWJsZXMsIE1ha2UgTGFiZWxzLCBBZGQgTm90ZXMNCg0KYGBge3J9DQoNCmBgYA0KDQojIyBXb3JrIHdpdGggTW9kZWxzDQoNCmBgYHtyfQ0KDQpgYGANCg0KIyMgRHJhdyBNYXBzDQoNCmBgYHtyfQ0KDQpgYGANCg0KDQojIyBSZWZpbmUgeW91ciBQbG90cw0KDQpgYGB7cn0NCg0KYGBgDQoNCg0K

Data Visualization Notes

Jenn Schilling

2022-01-19