Session 9

** Please click all the tabs (in sequence) to get the entire set of information in these pages. **

** To download code, see the instructions in Session 2: https://rpubs.com/hkb/DAX-Session2 **

Objectives

Getting Familiar with ggplot package
- Plotting two dimensions of data (x = subject, y = metric)
- Plotting multiple series (y) - through color, shape, size, linetype
- Adding 3rd dimension of data
Creating Data Objects for Visualization
- Summaries (table, sum, mean, max, count, …)

Recall our Student Scores Data

Let’s load in the student scores data set we created previously

# setwd("/cloud/project")
load("/cloud/project/DAX/dfeg.Rdata")
head(df.eg)

head(data_long)

There are two data frames: df.eg (wide form) and data_long (long form). Let’s rename them to be more memorable. df.wide and df.long

df.wide <- df.eg
df.long <- data_long

Some simple plots

plot(as.factor(df.wide$name), df.wide$grade) # , type = "b"

plot(as.factor(df.wide$name), df.wide$total.score) # , type = "b"

Now let’s do the same thing (and more fancy things) with ggplot, which has the structure ggplot(data, aesthetics(x,y, additional dimensions), other details …)

ggplot(df.long, aes(x=name, y=grade)) + geom_point() # + expand_limits(y=0)

Ok, that’s not terribly useful to plot who’s in what class. (It might be more useful to plot how many students in each class … we’ll come to that later.) More useful might be to plot their test scores.

ggplot(df.long, aes(x=name, y=Score)) + geom_point() + expand_limits(y=0)

Hmm … each student has multiple scores, and they are all bunched up together against the name. How can we make this better? What should we separate the scores out on? And how?

ggplot(df.long, aes(x=name, y=Score, color=Subject)) + geom_point() + expand_limits(y=0)

ggplot(df.long, aes(x=Subject, y=Score, color=name)) + geom_point() + theme_classic() +  geom_line(aes(group=name)) # wouldn't need this last group command if Subject were numeric


# ggplot(df.long, aes(x=as.numeric(Subject), y=Score, color=name, group=name)) + geom_point() +  geom_line()

Creating Data Objects for Visualization

We mentioned earlier that plotting students against grades was not terribly useful, but that it could be useful to see how many students are in each class. There are a number of ways to do this.

table(df.long$grade)


 8  9 
12  9

Anyone see something odd with this report?

Yeah, because we ran the table function on the long form data set df.long, in which each student (who’s in one grade) appears multiple times. That’s not useful. We need to do this operation on a data set where each student/grade appears once.

table(df.wide$grade)


8 9 
4 3

Here’s another way to get the same result using df.long and distinct()

df.long.grade <- df.long %>% select(name, grade) %>% distinct()  
table(df.long.grade$grade)


8 9 
4 3

and even better with only dplyr

df.long %>% select(name, grade) %>% distinct() %>% group_by(grade) %>% 
summarise(n=n())

and now it is in the best form for plotting because we have a data frame object, with named columns so we can assign x=grade and y=n, and do the plot. That’s an exercise for you!

ggplot(df.long, aes(x=Subject, y=name, size=Score, color=as.factor(grade))) + geom_point() + theme_classic()

LS0tCnRpdGxlOiAiU2Vzc2lvbiA5IgphdXRob3I6ICJIZW1hbnQgQmhhcmdhdmEiCmRhdGU6ICIwOC8xMC8yMDIwIgpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sKLS0tCgoqKiBQbGVhc2UgY2xpY2sgYWxsIHRoZSB0YWJzIChpbiBzZXF1ZW5jZSkgdG8gZ2V0IHRoZSBlbnRpcmUgc2V0IG9mIGluZm9ybWF0aW9uIGluIHRoZXNlIHBhZ2VzLiAqKgoKKiogVG8gZG93bmxvYWQgY29kZSwgc2VlIHRoZSBpbnN0cnVjdGlvbnMgaW4gU2Vzc2lvbiAyOiBodHRwczovL3JwdWJzLmNvbS9oa2IvREFYLVNlc3Npb24yICoqCgoKYGBge3Igc2V0dXAsZWNobz1GQUxTRX0Ka25pdHI6Om9wdHNfY2h1bmskc2V0KGVjaG8gPSBUUlVFLCB3YXJuaW5nPUZBTFNFLCBtZXNzYWdlPUZBTFNFKQpvcHRpb25zKHNjaXBlbj0xMDAwMDAwMCkKb3B0aW9ucyhkaWdpdHM9MykKYGBgCgpgYGB7ciBwYWNrYWdlcyxlY2hvPUZBTFNFfQojIGluc3RhbGwucGFja2FnZXMoImtuaXRyIikKbGlicmFyeShrbml0cikKCmxpYnJhcnkoZHBseXIpCmxpYnJhcnkodGlkeXZlcnNlKQpsaWJyYXJ5KGdncGxvdDIpCmxpYnJhcnkoZ3JpZEV4dHJhKQpsaWJyYXJ5KGdncmVwZWwpCiMgbGlicmFyeShib3hvZmZpY2UpICMgYmVjYXVzZSB0aGUgcGFja2FnZSBpcyBhbHJlYWR5IGluc3RhbGxlZAoKcmVxdWlyZShtYXBzKSAjIGFub3RoZXIgYWx0ZXJuYXRpdmUgZm9yIG1hcHMKcmVxdWlyZShnZ2FuaW1hdGUpIAoKYGBgCiAKCgojIyBPYmplY3RpdmVzCgoqIEdldHRpbmcgRmFtaWxpYXIgd2l0aCBnZ3Bsb3QgcGFja2FnZQogIC0gUGxvdHRpbmcgdHdvIGRpbWVuc2lvbnMgb2YgZGF0YSAoeCA9IHN1YmplY3QsIHkgPSBtZXRyaWMpCiAgLSBQbG90dGluZyBtdWx0aXBsZSBzZXJpZXMgKHkpIC0gdGhyb3VnaCBjb2xvciwgc2hhcGUsIHNpemUsIGxpbmV0eXBlCiAgLSBBZGRpbmcgM3JkIGRpbWVuc2lvbiBvZiBkYXRhCgoqIENyZWF0aW5nIERhdGEgT2JqZWN0cyBmb3IgVmlzdWFsaXphdGlvbgogIC0gU3VtbWFyaWVzICh0YWJsZSwgc3VtLCBtZWFuLCBtYXgsIGNvdW50LCAuLi4pCiAgLSAKCiMjIyBSZWNhbGwgb3VyIFN0dWRlbnQgU2NvcmVzIERhdGEKCkxldCdzIGxvYWQgaW4gdGhlIHN0dWRlbnQgc2NvcmVzIGRhdGEgc2V0IHdlIGNyZWF0ZWQgcHJldmlvdXNseQoKYGBge3IgZGF0YS5sb2FkfSAKIyBzZXR3ZCgiL2Nsb3VkL3Byb2plY3QiKQpsb2FkKCIvY2xvdWQvcHJvamVjdC9EQVgvZGZlZy5SZGF0YSIpCmhlYWQoZGYuZWcpCmhlYWQoZGF0YV9sb25nKQpgYGAKClRoZXJlIGFyZSB0d28gZGF0YSBmcmFtZXM6IGRmLmVnICh3aWRlIGZvcm0pIGFuZCBkYXRhX2xvbmcgKGxvbmcgZm9ybSkuIExldCdzIHJlbmFtZSB0aGVtIHRvIGJlIG1vcmUgbWVtb3JhYmxlLiBkZi53aWRlIGFuZCBkZi5sb25nCgpgYGB7ciByZW5hbWVzfQpkZi53aWRlIDwtIGRmLmVnCmRmLmxvbmcgPC0gZGF0YV9sb25nCmBgYAoKIyMjIFNvbWUgc2ltcGxlIHBsb3RzCgpgYGB7ciBzaW1wbGUucGxvdH0gCnBsb3QoYXMuZmFjdG9yKGRmLndpZGUkbmFtZSksIGRmLndpZGUkZ3JhZGUpICMgLCB0eXBlID0gImIiCmBgYApgYGB7ciBzaW1wbGUucGxvdC5zY29yZX0gCnBsb3QoYXMuZmFjdG9yKGRmLndpZGUkbmFtZSksIGRmLndpZGUkdG90YWwuc2NvcmUpICMgLCB0eXBlID0gImIiCmBgYAoKCk5vdyBsZXQncyBkbyB0aGUgc2FtZSB0aGluZyAoYW5kIG1vcmUgZmFuY3kgdGhpbmdzKSB3aXRoIGdncGxvdCwgd2hpY2ggaGFzIHRoZSBzdHJ1Y3R1cmUgZ2dwbG90KGRhdGEsIGFlc3RoZXRpY3MoeCx5LCBhZGRpdGlvbmFsIGRpbWVuc2lvbnMpLCBvdGhlciBkZXRhaWxzIC4uLikKCmBgYHtyIHNpbXBsZS5nZ3Bsb3R9CmdncGxvdChkZi5sb25nLCBhZXMoeD1uYW1lLCB5PWdyYWRlKSkgKyBnZW9tX3BvaW50KCkgIyArIGV4cGFuZF9saW1pdHMoeT0wKQpgYGAKCk9rLCB0aGF0J3Mgbm90IHRlcnJpYmx5IHVzZWZ1bCB0byBwbG90IHdobydzIGluIHdoYXQgY2xhc3MuIChJdCBtaWdodCBiZSBtb3JlIHVzZWZ1bCB0byBwbG90ICpob3cgbWFueSBzdHVkZW50cyogaW4gZWFjaCBjbGFzcyAuLi4gd2UnbGwgY29tZSB0byB0aGF0IGxhdGVyLikgTW9yZSB1c2VmdWwgbWlnaHQgYmUgdG8gcGxvdCB0aGVpciB0ZXN0IHNjb3Jlcy4gCgpgYGB7ciBzaW1wbGUuZ2dwbG90LnNjb3Jlc30KZ2dwbG90KGRmLmxvbmcsIGFlcyh4PW5hbWUsIHk9U2NvcmUpKSArIGdlb21fcG9pbnQoKSArIGV4cGFuZF9saW1pdHMoeT0wKQpgYGAKCkhtbSAuLi4gZWFjaCBzdHVkZW50IGhhcyBtdWx0aXBsZSBzY29yZXMsIGFuZCB0aGV5IGFyZSBhbGwgYnVuY2hlZCB1cCB0b2dldGhlciBhZ2FpbnN0IHRoZSBuYW1lLiBIb3cgY2FuIHdlIG1ha2UgdGhpcyBiZXR0ZXI/IFdoYXQgc2hvdWxkIHdlIHNlcGFyYXRlIHRoZSBzY29yZXMgb3V0IG9uPyBBbmQgaG93PyAKCgpgYGB7ciBzaW1wbGUuZ2dwbG90LnNjb3Jlcy5TdWJ9CmdncGxvdChkZi5sb25nLCBhZXMoeD1uYW1lLCB5PVNjb3JlLCBjb2xvcj1TdWJqZWN0KSkgKyBnZW9tX3BvaW50KCkgKyBleHBhbmRfbGltaXRzKHk9MCkKYGBgCgpgYGB7ciBzaW1wbGUuZ2dwbG90LnNjb3Jlcy5TdWIubXVsdGl9CmdncGxvdChkZi5sb25nLCBhZXMoeD1TdWJqZWN0LCB5PVNjb3JlLCBjb2xvcj1uYW1lKSkgKyBnZW9tX3BvaW50KCkgKyB0aGVtZV9jbGFzc2ljKCkgKyAgZ2VvbV9saW5lKGFlcyhncm91cD1uYW1lKSkgIyB3b3VsZG4ndCBuZWVkIHRoaXMgbGFzdCBncm91cCBjb21tYW5kIGlmIFN1YmplY3Qgd2VyZSBudW1lcmljCgojIGdncGxvdChkZi5sb25nLCBhZXMoeD1hcy5udW1lcmljKFN1YmplY3QpLCB5PVNjb3JlLCBjb2xvcj1uYW1lLCBncm91cD1uYW1lKSkgKyBnZW9tX3BvaW50KCkgKyAgZ2VvbV9saW5lKCkgICAKYGBgCgojIyMgQ3JlYXRpbmcgRGF0YSBPYmplY3RzIGZvciBWaXN1YWxpemF0aW9uCgpXZSBtZW50aW9uZWQgZWFybGllciB0aGF0IHBsb3R0aW5nIHN0dWRlbnRzIGFnYWluc3QgZ3JhZGVzIHdhcyBub3QgdGVycmlibHkgdXNlZnVsLCBidXQgdGhhdCBpdCBjb3VsZCBiZSB1c2VmdWwgdG8gc2VlIGhvdyBtYW55IHN0dWRlbnRzIGFyZSBpbiBlYWNoIGNsYXNzLiBUaGVyZSBhcmUgYSBudW1iZXIgb2Ygd2F5cyB0byBkbyB0aGlzLiAKCmBgYHtyIHRhYmxlLmxvbmd9CnRhYmxlKGRmLmxvbmckZ3JhZGUpCmBgYAoKQW55b25lIHNlZSBzb21ldGhpbmcgb2RkIHdpdGggdGhpcyByZXBvcnQ/IAoKWWVhaCwgYmVjYXVzZSB3ZSByYW4gdGhlIHRhYmxlIGZ1bmN0aW9uIG9uIHRoZSBsb25nIGZvcm0gZGF0YSBzZXQgZGYubG9uZywgaW4gd2hpY2ggZWFjaCBzdHVkZW50ICh3aG8ncyBpbiBvbmUgZ3JhZGUpIGFwcGVhcnMgbXVsdGlwbGUgdGltZXMuIFRoYXQncyBub3QgdXNlZnVsLiBXZSBuZWVkIHRvIGRvIHRoaXMgb3BlcmF0aW9uIG9uIGEgZGF0YSBzZXQgd2hlcmUgZWFjaCBzdHVkZW50L2dyYWRlIGFwcGVhcnMgb25jZS4gCgpgYGB7ciB0YWJsZS53aWRlfQp0YWJsZShkZi53aWRlJGdyYWRlKQpgYGAKCkhlcmUncyBhbm90aGVyIHdheSB0byBnZXQgdGhlIHNhbWUgcmVzdWx0IHVzaW5nIGRmLmxvbmcgYW5kIGRpc3RpbmN0KCkKCmBgYHtyIHRhYmxlLmxvbmcuZGlzdGluY3R9CmRmLmxvbmcuZ3JhZGUgPC0gZGYubG9uZyAlPiUgc2VsZWN0KG5hbWUsIGdyYWRlKSAlPiUgZGlzdGluY3QoKSAgCnRhYmxlKGRmLmxvbmcuZ3JhZGUkZ3JhZGUpCmBgYAoKYW5kIGV2ZW4gYmV0dGVyIHdpdGggb25seSBkcGx5cgoKYGBge3IgdGFibGUubG9uZy5kcGx5cn0KZGYubG9uZyAlPiUgc2VsZWN0KG5hbWUsIGdyYWRlKSAlPiUgZGlzdGluY3QoKSAlPiUgZ3JvdXBfYnkoZ3JhZGUpICU+JSAKc3VtbWFyaXNlKG49bigpKQpgYGAKYW5kIG5vdyBpdCBpcyBpbiB0aGUgYmVzdCBmb3JtIGZvciBwbG90dGluZyBiZWNhdXNlIHdlIGhhdmUgYSBkYXRhIGZyYW1lIG9iamVjdCwgd2l0aCBuYW1lZCBjb2x1bW5zIHNvIHdlIGNhbiBhc3NpZ24geD1ncmFkZSBhbmQgeT1uLCBhbmQgZG8gdGhlIHBsb3QuIFRoYXQncyBhbiBleGVyY2lzZSBmb3IgeW91ISAKCmBgYHtyIGJ1YmJsZX0KZ2dwbG90KGRmLmxvbmcsIGFlcyh4PVN1YmplY3QsIHk9bmFtZSwgc2l6ZT1TY29yZSwgY29sb3I9YXMuZmFjdG9yKGdyYWRlKSkpICsgZ2VvbV9wb2ludCgpICsgdGhlbWVfY2xhc3NpYygpIApgYGAgCg==

Session 9

Hemant Bhargava

08/10/2020

Objectives

Recall our Student Scores Data

Some simple plots

Creating Data Objects for Visualization