Midterm Grades

The average for Group 1 is 34.6 and average for Group 2 is 40.6

Some students, although they complete DataCamp assignments, were completely clueless during exam. It’s obvious that some of you completely ignored the instructor’s warning about writing code from scratch. Also, it looks like some cheating going on with DataCamp assignments. For those who are cheating, I wonder about your boundaries, if you cheat for such small thing, for how big an item can you cheat?

Due to DataCamp case, the contribution of grade points is planned to be as follows (subject to change)

Item	Total contribution to 100 points
Midterm	30
Final	40
Quiz	15
DataCamp assignments	5
Question Pool	5
Attendance	5
Project (Bonus)	7

Text Mining, the Tidy Way

The contents are taken from the book Text Mining with R which can be accessed online here. The R code of the book is available at this Github repo

Chapter 1 - Tidy Text Format

Before we start, please make sure the following libraries are installed

library(tidytext)
library(stringr)
library(tidyverse)

Using tidy data principles is a powerful way to make handling data easier and more effective, and this is no less true when it comes to dealing with text. As described by Hadley Wickham, tidy data has a specific structure:

Each variable is a column
Each observation is a row
Each type of observational unit is a table

We thus define the tidy text format as being a table with one-token-per-row. A token is a meaningful unit of text, such as a word, that we are interested in using for analysis, and tokenization is the process of splitting text into tokens.

Contrasting tidy text with other data structures

As we stated above, we define the tidy text format as being a table with one-token-per-row. Structuring text data in this way means that it conforms to tidy data principles and can be manipulated with a set of consistent tools. This is worth contrasting with the ways text is often stored in text mining approaches.

String: Text can, of course, be stored as strings, i.e., character vectors, within R, and often text data is first read into memory in this form.
Corpus: These types of objects typically contain raw strings annotated with additional metadata and details.
Document-term matrix: This is a sparse matrix describing a collection (i.e., a corpus) of documents with one row for each document and one column for each term. The value in the matrix is typically word count or tf-idf (see related Chapter).

The `unnest_tokens` function

Here’s a sample text.

text <- c("Because I could not stop for Death -",
          "He kindly stopped for me -",
          "The Carriage held but just Ourselves -",
          "and Immortality")
text

[1] "Because I could not stop for Death -"   "He kindly stopped for me -"             "The Carriage held but just Ourselves -"
[4] "and Immortality"

In order to turn it into a tidy text dataset, we first need to put it into a data frame.

The two basic arguments to unnest_tokens used here are column names. First we have the output column name that will be created as the text is unnested into it (word, in this case), and then the input column that the text comes from (text, in this case). Remember that text_df above has a column called text that contains the data of interest.

After using unnest_tokens, we’ve split each row so that there is one token (word) in each row of the new data frame; the default tokenization in unnest_tokens() is for single words, as shown here. Also notice:

Other columns, such as the line number each word came from, are retained.
Punctuation has been stripped.
By default, unnest_tokens() converts the tokens to lowercase, which makes them easier to compare or combine with other datasets. (Use the to_lower = FALSE argument to turn off this behavior).

Having the text data in this format lets us manipulate, process, and visualize the text using the standard set of tidy tools, namely dplyr, tidyr, and ggplot2.

Tidying the works of Jane Austen

Let’s use the text of Jane Austen’s 6 completed, published novels from the janeaustenr package, and transform them into a tidy format. The janeaustenr package provides these texts in a one-row-per-line format, where a line is this context is analogous to a literal printed line in a physical book. Let’s start with that, and also use mutate() to annotate a linenumber quantity to keep track of lines in the original format and a chapter (using a regex) to find where all the chapters are.

Here are the names of the books and number of lines they contain

In order to orient ourselves, here’s the first 30 lines from the book Sense and Sensibility

SENSE AND SENSIBILITY

by Jane Austen

(1811)




CHAPTER 1


The family of Dashwood had long been settled in Sussex.  Their estate
was large, and their residence was at Norland Park, in the centre of
their property, where, for many generations, they had lived in so
respectable a manner as to engage the general good opinion of their
surrounding acquaintance.  The late owner of this estate was a single
man, who lived to a very advanced age, and who for many years of his
life, had a constant companion and housekeeper in his sister.  But her
death, which happened ten years before his own, produced a great
alteration in his home; for to supply her loss, he invited and received
into his house the family of his nephew Mr. Henry Dashwood, the legal
inheritor of the Norland estate, and the person to whom he intended to
bequeath it.  In the society of his nephew and niece, and their
children, the old Gentleman's days were comfortably spent.  His
attachment to them all increased.  The constant attention of Mr. and
Mrs. Henry Dashwood to his wishes, which proceeded not merely from
interest, but from goodness of heart, gave him every degree of solid
comfort which his age could receive; and the cheerfulness of the
children added a relish to his existence.

And now, the tidy version of all book contents

tidy_books <- original_books %>%
  unnest_tokens(word, text)
tidy_books

This function uses the tokenizers package to separate each line of text in the original data frame into tokens. The default tokenizing is for words, but other options include characters, n-grams, sentences, lines, paragraphs, or separation around a regex pattern.

Let’s count most frequent words

tidy_books %>%
  count(word, sort = TRUE)

Ooops, this list does not give any sort of usable information. Often in text analysis, we will want to remove stop words; stop words are words that are not useful for an analysis, typically extremely common words such as “the”, “of”, “to”, and so forth in English. We can remove stop words (kept in the tidytext dataset stop_words) with an anti_join().

data(stop_words)
tidy_books <- tidy_books %>%
  anti_join(stop_words)

Joining, by = "word"

tidy_books

Let’s check the word counts again.

tidy_books %>%
  count(word, sort = TRUE)

Since we have the data in tidy format, it would be a breeze to pipe it to ggplot and produce nice plots.

library(ggplot2)
tidy_books %>%
  count(word, sort = TRUE) %>%
  filter(n > 600) %>%
#  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n)) +
  geom_col() +
  xlab(NULL) +
  coord_flip()

Don’t forget the fix the plot above.

About, ordering columns, please draw the plot below in ordered fashion

data_frame(letters=letters[1:4], counts=c(20,30,15,5)) %>% 
  # copy/paste the mutate code from above and modify to order bars
  ggplot(aes(letters,counts)) +
  geom_col() +
  xlab(NULL) +
  coord_flip()

# please check the letters column classes
ordered <- data_frame(letters=letters[1:4], counts=c(20,30,15,5)) %>% 
  mutate(letters = reorder(letters, counts)) 
unordered <- data_frame(letters=letters[1:4], counts=c(20,30,15,5))

Please refer to other examples of word frequency calculation from Project Gutenberg in the book ( Chapter 1.4 )

Chapter 2 - Sentiment Analysis

The `sentiments` dataset

sentiments

sentiments %>% 
  group_by(word) %>% 
  mutate(n_sent=n()) %>% 
  arrange(-n_sent,word)

The three general-purpose lexicons are

AFINN from Finn Årup Nielsen,
bing from Bing Liu and collaborators, and
nrc from Saif Mohammad and Peter Turney.

tidytext provides a function get_sentiments() to get specific sentiment lexicons without the columns that are not used in that lexicon.

get_sentiments("afinn")

get_sentiments("bing")

get_sentiments("nrc")

Sentiment analysis with inner join

With data in a tidy format, sentiment analysis can be done as an inner join. This is another of the great successes of viewing text mining as a tidy data analysis task; much as removing stop words is an antijoin operation, performing sentiment analysis is an inner join operation.

Let’s look at the words with a joy score from the NRC lexicon. What are the most common joy words in Emma?

nrcjoy <- get_sentiments("nrc") %>% 
  filter(sentiment == "joy")
tidy_books %>%
  filter(book == "Emma") %>%
  inner_join(nrcjoy) %>%
  count(word, sort = TRUE)

Joining, by = "word"

Small sections of text may not have enough words in them to get a good estimate of sentiment while really large sections can wash out narrative structure. For these books, using 80 lines works well, but this can vary depending on individual texts, how long the lines were to start with, etc. We then use spread() so that we have negative and positive sentiment in separate columns, and lastly calculate a net sentiment (positive - negative).

The %/% operator does integer division (x %/% y is equivalent to floor(x/y)) so the index keeps track of which 80-line section of text we are counting up negative and positive sentiment in.

library(tidyr)
janeaustensentiment <- tidy_books %>%
  inner_join(get_sentiments("bing")) %>%
  mutate(index= linenumber %/% 80) %>% 
  count(book, index , sentiment) %>%
  spread(sentiment, n, fill = 0) %>%
  mutate(sentiment = positive - negative)

Joining, by = "word"

Now we can plot these sentiment scores across the plot trajectory of each novel. Notice that we are plotting against the index on the x-axis that keeps track of narrative time in sections of text.

library(ggplot2)
ggplot(janeaustensentiment, aes(index, sentiment, fill = book)) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~book, ncol = 2, scales = "free_x")

Most common positive and negative words

One advantage of having the data frame with both sentiment and word is that we can analyze word counts that contribute to each sentiment.

bing_word_counts <- tidy_books %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  ungroup()

Joining, by = "word"

bing_word_counts

This can be shown visually, and we can pipe straight into ggplot2, if we like, because of the way we are consistently using tools built for handling tidy data frames.

There’s a problem with the word miss. In the context of Jane Austen’s books, it means Miss. as Mr. and Mrs.. Please refer to Section 2.4 to see how a particular word can be removed by adding to stop_words.

bing_word_counts %>%
  group_by(sentiment) %>%
  top_n(10) %>%
  ungroup() %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n, fill = sentiment)) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~sentiment, scales = "free_y") +
  labs(y = "Contribution to sentiment",
       x = NULL) +
  coord_flip()

Selecting by n

Assignment For Next Week

Sentiment Analysis in R: The Tidy Way

We’ll be having a quiz from the course contents, both today’s lecture and DataCamp course.

LS0tCnRpdGxlOiB8ICAgCiB8IERhdGEgQW5hbHlzaXMgYW5kIFZpc3VhbGl6YXRpb24gIAogfCBMZXNzb24gMTAgICAKIHwgVGV4dCBNaW5pbmcgLSBQYXJ0IDEgIAphdXRob3I6ICJhbHBlciB5aWxtYXoiCmRhdGU6ICJOb3ZlbWJlciAyMXN0LCAyMDE3IgpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sKLS0tCgojIE1pZHRlcm0gR3JhZGVzCgpgYGB7ciBlY2hvPUZBTFNFLCB3YXJuaW5nPUZBTFNFLCBtZXNzYWdlPUZBTFNFfQpsaWJyYXJ5KHRpZHl2ZXJzZSkKbGlicmFyeShEVCkKbWlkdGVybSA8LSByZWFkX2NzdigibWlkdGVybS1ncmFkZXMuY3N2IikKbWlkdGVybSAlPiUgIHNlbGVjdCgtbm8sLWNvbW1uZW50KSAlPiUgZGF0YXRhYmxlKCkKCmF2ZXJhZ2VzIDwtIG1pZHRlcm0gJT4lIGdyb3VwX2J5KGdyb3VwX25vKSAlPiUgc3VtbWFyaXNlKG1lYW4gPSBtZWFuKFRvdGFsKSkKYGBgCgpUaGUgYXZlcmFnZSBmb3IgR3JvdXAgMSBpcyAqKmByIHJvdW5kKGF2ZXJhZ2VzJG1lYW5bMV0sIDEpYCoqIGFuZCBhdmVyYWdlIGZvciBHcm91cCAyIGlzICoqYHIgcm91bmQoYXZlcmFnZXMkbWVhblsyXSwgMSlgKioKCj4gU29tZSBzdHVkZW50cywgYWx0aG91Z2ggdGhleSBjb21wbGV0ZSBEYXRhQ2FtcCBhc3NpZ25tZW50cywgd2VyZSBjb21wbGV0ZWx5IGNsdWVsZXNzIGR1cmluZyBleGFtLiBJdCdzIG9idmlvdXMgdGhhdCBzb21lIG9mIHlvdSBjb21wbGV0ZWx5IGlnbm9yZWQgdGhlIGluc3RydWN0b3IncyB3YXJuaW5nIGFib3V0IHdyaXRpbmcgY29kZSBmcm9tIHNjcmF0Y2guIEFsc28sIGl0IGxvb2tzIGxpa2Ugc29tZSBjaGVhdGluZyBnb2luZyBvbiB3aXRoIERhdGFDYW1wIGFzc2lnbm1lbnRzLiBGb3IgdGhvc2Ugd2hvIGFyZSBjaGVhdGluZywgSSB3b25kZXIgYWJvdXQgeW91ciBib3VuZGFyaWVzLCBpZiB5b3UgY2hlYXQgZm9yIHN1Y2ggc21hbGwgdGhpbmcsIGZvciBob3cgYmlnIGFuIGl0ZW0gY2FuIHlvdSBjaGVhdD8KCkR1ZSB0byBEYXRhQ2FtcCBjYXNlLCB0aGUgY29udHJpYnV0aW9uIG9mIGdyYWRlIHBvaW50cyBpcyBwbGFubmVkIHRvIGJlIGFzIGZvbGxvd3MgKCoqc3ViamVjdCB0byBjaGFuZ2UqKikKCnwgSXRlbSB8IFRvdGFsIGNvbnRyaWJ1dGlvbiB0byAxMDAgcG9pbnRzIHwKfC0tLS0tLXwtLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tfAp8IE1pZHRlcm0gfCAzMCB8CnwgRmluYWwgIHwgNDAgIHwKfCBRdWl6IHwgMTUgfAp8IERhdGFDYW1wIGFzc2lnbm1lbnRzIHwgNSB8CnwgUXVlc3Rpb24gUG9vbCB8IDUgfAp8IEF0dGVuZGFuY2UgfCA1IHwKfCBQcm9qZWN0ICgqKkJvbnVzKiopIHwgNyB8CgojIFRleHQgTWluaW5nLCB0aGUgVGlkeSBXYXkKClRoZSBjb250ZW50cyBhcmUgdGFrZW4gZnJvbSB0aGUgYm9vayAqVGV4dCBNaW5pbmcgd2l0aCBSKiB3aGljaCBjYW4gYmUgYWNjZXNzZWQgb25saW5lIFtoZXJlXShodHRwOi8vdGlkeXRleHRtaW5pbmcuY29tLykuIFRoZSBSIGNvZGUgb2YgdGhlIGJvb2sgaXMgYXZhaWxhYmxlIGF0IHRoaXMgW0dpdGh1YiByZXBvXShodHRwczovL2dpdGh1Yi5jb20vZGdydHdvL3RpZHktdGV4dC1taW5pbmcpCgojIyBDaGFwdGVyIDEgLSBUaWR5IFRleHQgRm9ybWF0CgpCZWZvcmUgd2Ugc3RhcnQsIHBsZWFzZSBtYWtlIHN1cmUgdGhlIGZvbGxvd2luZyBsaWJyYXJpZXMgYXJlIGluc3RhbGxlZAoKYGBge3J9CmxpYnJhcnkodGlkeXRleHQpCmxpYnJhcnkoc3RyaW5ncikKbGlicmFyeSh0aWR5dmVyc2UpCmBgYAoKClVzaW5nIHRpZHkgZGF0YSBwcmluY2lwbGVzIGlzIGEgcG93ZXJmdWwgd2F5IHRvIG1ha2UgaGFuZGxpbmcgZGF0YSBlYXNpZXIgYW5kIG1vcmUgZWZmZWN0aXZlLCBhbmQgdGhpcyBpcyBubyBsZXNzIHRydWUgd2hlbiBpdCBjb21lcyB0byBkZWFsaW5nIHdpdGggdGV4dC4gQXMgZGVzY3JpYmVkIGJ5IEhhZGxleSBXaWNraGFtLCB0aWR5IGRhdGEgaGFzIGEgc3BlY2lmaWMgc3RydWN0dXJlOgoKKiBFYWNoIHZhcmlhYmxlIGlzIGEgY29sdW1uCiogRWFjaCBvYnNlcnZhdGlvbiBpcyBhIHJvdwoqIEVhY2ggdHlwZSBvZiBvYnNlcnZhdGlvbmFsIHVuaXQgaXMgYSB0YWJsZQoKV2UgdGh1cyBkZWZpbmUgdGhlIHRpZHkgdGV4dCBmb3JtYXQgYXMgYmVpbmcgKiphIHRhYmxlIHdpdGggb25lLXRva2VuLXBlci1yb3cuKiogQSB0b2tlbiBpcyBhIG1lYW5pbmdmdWwgdW5pdCBvZiB0ZXh0LCBzdWNoIGFzIGEgd29yZCwgdGhhdCB3ZSBhcmUgaW50ZXJlc3RlZCBpbiB1c2luZyBmb3IgYW5hbHlzaXMsIGFuZCB0b2tlbml6YXRpb24gaXMgdGhlIHByb2Nlc3Mgb2Ygc3BsaXR0aW5nIHRleHQgaW50byB0b2tlbnMuCgojIyMgQ29udHJhc3RpbmcgdGlkeSB0ZXh0IHdpdGggb3RoZXIgZGF0YSBzdHJ1Y3R1cmVzCgpBcyB3ZSBzdGF0ZWQgYWJvdmUsIHdlIGRlZmluZSB0aGUgdGlkeSB0ZXh0IGZvcm1hdCBhcyBiZWluZyBhIHRhYmxlIHdpdGggKipvbmUtdG9rZW4tcGVyLXJvdy4qKiBTdHJ1Y3R1cmluZyB0ZXh0IGRhdGEgaW4gdGhpcyB3YXkgbWVhbnMgdGhhdCBpdCBjb25mb3JtcyB0byB0aWR5IGRhdGEgcHJpbmNpcGxlcyBhbmQgY2FuIGJlIG1hbmlwdWxhdGVkIHdpdGggYSBzZXQgb2YgY29uc2lzdGVudCB0b29scy4gVGhpcyBpcyB3b3J0aCBjb250cmFzdGluZyB3aXRoIHRoZSB3YXlzIHRleHQgaXMgb2Z0ZW4gc3RvcmVkIGluIHRleHQgbWluaW5nIGFwcHJvYWNoZXMuCgoqICoqU3RyaW5nKio6IFRleHQgY2FuLCBvZiBjb3Vyc2UsIGJlIHN0b3JlZCBhcyBzdHJpbmdzLCBpLmUuLCBjaGFyYWN0ZXIgdmVjdG9ycywgd2l0aGluIFIsIGFuZCBvZnRlbiB0ZXh0IGRhdGEgaXMgZmlyc3QgcmVhZCBpbnRvIG1lbW9yeSBpbiB0aGlzIGZvcm0uCiogKipDb3JwdXMqKjogVGhlc2UgdHlwZXMgb2Ygb2JqZWN0cyB0eXBpY2FsbHkgY29udGFpbiByYXcgc3RyaW5ncyBhbm5vdGF0ZWQgd2l0aCBhZGRpdGlvbmFsIG1ldGFkYXRhIGFuZCBkZXRhaWxzLgoqICoqRG9jdW1lbnQtdGVybSBtYXRyaXgqKjogVGhpcyBpcyBhIHNwYXJzZSBtYXRyaXggZGVzY3JpYmluZyBhIGNvbGxlY3Rpb24gKGkuZS4sIGEgY29ycHVzKSBvZiBkb2N1bWVudHMgd2l0aCBvbmUgcm93IGZvciBlYWNoIGRvY3VtZW50IGFuZCBvbmUgY29sdW1uIGZvciBlYWNoIHRlcm0uIFRoZSB2YWx1ZSBpbiB0aGUgbWF0cml4IGlzIHR5cGljYWxseSB3b3JkIGNvdW50IG9yIHRmLWlkZiAoc2VlIHJlbGF0ZWQgQ2hhcHRlcikuCgojIyMgVGhlIGB1bm5lc3RfdG9rZW5zYCBmdW5jdGlvbgoKSGVyZSdzIGEgc2FtcGxlIHRleHQuCgpgYGB7ciB0ZXh0fQp0ZXh0IDwtIGMoIkJlY2F1c2UgSSBjb3VsZCBub3Qgc3RvcCBmb3IgRGVhdGggLSIsCiAgICAgICAgICAiSGUga2luZGx5IHN0b3BwZWQgZm9yIG1lIC0iLAogICAgICAgICAgIlRoZSBDYXJyaWFnZSBoZWxkIGJ1dCBqdXN0IE91cnNlbHZlcyAtIiwKICAgICAgICAgICJhbmQgSW1tb3J0YWxpdHkiKQoKdGV4dApgYGAKCkluIG9yZGVyIHRvIHR1cm4gaXQgaW50byBhIHRpZHkgdGV4dCBkYXRhc2V0LCB3ZSBmaXJzdCBuZWVkIHRvIHB1dCBpdCBpbnRvIGEgZGF0YSBmcmFtZS4KCmBgYHtyIHRleHRfZGYsIGRlcGVuZHNvbiA9ICJ0ZXh0In0KbGlicmFyeShkcGx5cikKdGV4dF9kZiA8LSBkYXRhX2ZyYW1lKGxpbmUgPSAxOjQsIHRleHQgPSB0ZXh0KQoKdGV4dF9kZgpgYGAKCmBgYHtyIGRlcGVuZHNvbiA9ICJ0ZXh0X2RmIiwgUi5vcHRpb25zID0gbGlzdChkcGx5ci5wcmludF9tYXggPSAxMCl9CmxpYnJhcnkodGlkeXRleHQpCgp0ZXh0X2RmICU+JQogIHVubmVzdF90b2tlbnMod29yZCwgdGV4dCkKCnRleHRfZGYgJT4lCiAgdW5uZXN0X3Rva2VucyhiaWdyYW0sIHRleHQsIHRva2VuID0gIm5ncmFtcyIsIG4gPSAyKQpgYGAKClRoZSB0d28gYmFzaWMgYXJndW1lbnRzIHRvIGB1bm5lc3RfdG9rZW5zYCB1c2VkIGhlcmUgYXJlIGNvbHVtbiBuYW1lcy4gRmlyc3Qgd2UgaGF2ZSB0aGUgb3V0cHV0IGNvbHVtbiBuYW1lIHRoYXQgd2lsbCBiZSBjcmVhdGVkIGFzIHRoZSB0ZXh0IGlzIHVubmVzdGVkIGludG8gaXQgKGB3b3JkYCwgaW4gdGhpcyBjYXNlKSwgYW5kIHRoZW4gdGhlIGlucHV0IGNvbHVtbiB0aGF0IHRoZSB0ZXh0IGNvbWVzIGZyb20gKGB0ZXh0YCwgaW4gdGhpcyBjYXNlKS4gUmVtZW1iZXIgdGhhdCBgdGV4dF9kZmAgYWJvdmUgaGFzIGEgY29sdW1uIGNhbGxlZCBgdGV4dGAgdGhhdCBjb250YWlucyB0aGUgZGF0YSBvZiBpbnRlcmVzdC4KCkFmdGVyIHVzaW5nIGB1bm5lc3RfdG9rZW5zYCwgd2UndmUgc3BsaXQgZWFjaCByb3cgc28gdGhhdCB0aGVyZSBpcyBvbmUgdG9rZW4gKHdvcmQpIGluIGVhY2ggcm93IG9mIHRoZSBuZXcgZGF0YSBmcmFtZTsgdGhlIGRlZmF1bHQgdG9rZW5pemF0aW9uIGluIGB1bm5lc3RfdG9rZW5zKClgIGlzIGZvciBzaW5nbGUgd29yZHMsIGFzIHNob3duIGhlcmUuIEFsc28gbm90aWNlOgoKKiBPdGhlciBjb2x1bW5zLCBzdWNoIGFzIHRoZSBsaW5lIG51bWJlciBlYWNoIHdvcmQgY2FtZSBmcm9tLCBhcmUgcmV0YWluZWQuCiogUHVuY3R1YXRpb24gaGFzIGJlZW4gc3RyaXBwZWQuCiogQnkgZGVmYXVsdCwgYHVubmVzdF90b2tlbnMoKWAgY29udmVydHMgdGhlIHRva2VucyB0byBsb3dlcmNhc2UsIHdoaWNoIG1ha2VzIHRoZW0gZWFzaWVyIHRvIGNvbXBhcmUgb3IgY29tYmluZSB3aXRoIG90aGVyIGRhdGFzZXRzLiAoVXNlIHRoZSBgdG9fbG93ZXIgPSBGQUxTRWAgYXJndW1lbnQgdG8gdHVybiBvZmYgdGhpcyBiZWhhdmlvcikuCgpIYXZpbmcgdGhlIHRleHQgZGF0YSBpbiB0aGlzIGZvcm1hdCBsZXRzIHVzIG1hbmlwdWxhdGUsIHByb2Nlc3MsIGFuZCB2aXN1YWxpemUgdGhlIHRleHQgdXNpbmcgdGhlIHN0YW5kYXJkIHNldCBvZiB0aWR5IHRvb2xzLCBuYW1lbHkgZHBseXIsIHRpZHlyLCBhbmQgZ2dwbG90Mi4KCiMjIyBUaWR5aW5nIHRoZSB3b3JrcyBvZiBKYW5lIEF1c3RlbgoKTGV0J3MgdXNlIHRoZSB0ZXh0IG9mIEphbmUgQXVzdGVuJ3MgNiBjb21wbGV0ZWQsIHB1Ymxpc2hlZCBub3ZlbHMgZnJvbSB0aGUgW2phbmVhdXN0ZW5yXShodHRwczovL2NyYW4uci1wcm9qZWN0Lm9yZy9wYWNrYWdlPWphbmVhdXN0ZW5yKSBwYWNrYWdlLCBhbmQgdHJhbnNmb3JtIHRoZW0gaW50byBhIHRpZHkgZm9ybWF0LiBUaGUgamFuZWF1c3RlbnIgcGFja2FnZSBwcm92aWRlcyB0aGVzZSB0ZXh0cyBpbiBhIG9uZS1yb3ctcGVyLWxpbmUgZm9ybWF0LCB3aGVyZSBhIGxpbmUgaXMgdGhpcyBjb250ZXh0IGlzIGFuYWxvZ291cyB0byBhIGxpdGVyYWwgcHJpbnRlZCBsaW5lIGluIGEgcGh5c2ljYWwgYm9vay4gTGV04oCZcyBzdGFydCB3aXRoIHRoYXQsIGFuZCBhbHNvIHVzZSBgbXV0YXRlKClgIHRvIGFubm90YXRlIGEgYGxpbmVudW1iZXJgIHF1YW50aXR5IHRvIGtlZXAgdHJhY2sgb2YgbGluZXMgaW4gdGhlIG9yaWdpbmFsIGZvcm1hdCBhbmQgYSBgY2hhcHRlcmAgKHVzaW5nIGEgcmVnZXgpIHRvIGZpbmQgd2hlcmUgYWxsIHRoZSBjaGFwdGVycyBhcmUuCgpgYGB7ciBvcmlnaW5hbF9ib29rc30KbGlicmFyeShqYW5lYXVzdGVucikKbGlicmFyeShkcGx5cikKbGlicmFyeShzdHJpbmdyKQoKb3JpZ2luYWxfYm9va3MgPC0gYXVzdGVuX2Jvb2tzKCkgJT4lCiAgZ3JvdXBfYnkoYm9vaykgJT4lCiAgbXV0YXRlKGxpbmVudW1iZXIgPSByb3dfbnVtYmVyKCksCiAgICAgICAgIGNoYXB0ZXIgPSBjdW1zdW0oc3RyX2RldGVjdCh0ZXh0LCByZWdleCgiXmNoYXB0ZXIgW1xcZGl2eGxjXSIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBpZ25vcmVfY2FzZSA9IFRSVUUpKSkpICU+JQogIHVuZ3JvdXAoKQoKb3JpZ2luYWxfYm9va3MKYGBgCgpIZXJlIGFyZSB0aGUgbmFtZXMgb2YgdGhlIGJvb2tzIGFuZCBudW1iZXIgb2YgbGluZXMgdGhleSBjb250YWluCgpgYGB7ciBib29rX25hbWVzfQpvcmlnaW5hbF9ib29rcyAlPiUgZ3JvdXBfYnkoYm9vaykgJT4lIHN1bW1hcmlzZShub19saW5lcz1uKCkpCmBgYAoKSW4gb3JkZXIgdG8gb3JpZW50IG91cnNlbHZlcywgaGVyZSdzIHRoZSBmaXJzdCAzMCBsaW5lcyBmcm9tIHRoZSBib29rIGBTZW5zZSBhbmQgU2Vuc2liaWxpdHlgCgpgYGAKU0VOU0UgQU5EIFNFTlNJQklMSVRZCgpieSBKYW5lIEF1c3RlbgoKKDE4MTEpCgoKCgpDSEFQVEVSIDEKCgpUaGUgZmFtaWx5IG9mIERhc2h3b29kIGhhZCBsb25nIGJlZW4gc2V0dGxlZCBpbiBTdXNzZXguICBUaGVpciBlc3RhdGUKd2FzIGxhcmdlLCBhbmQgdGhlaXIgcmVzaWRlbmNlIHdhcyBhdCBOb3JsYW5kIFBhcmssIGluIHRoZSBjZW50cmUgb2YKdGhlaXIgcHJvcGVydHksIHdoZXJlLCBmb3IgbWFueSBnZW5lcmF0aW9ucywgdGhleSBoYWQgbGl2ZWQgaW4gc28KcmVzcGVjdGFibGUgYSBtYW5uZXIgYXMgdG8gZW5nYWdlIHRoZSBnZW5lcmFsIGdvb2Qgb3BpbmlvbiBvZiB0aGVpcgpzdXJyb3VuZGluZyBhY3F1YWludGFuY2UuICBUaGUgbGF0ZSBvd25lciBvZiB0aGlzIGVzdGF0ZSB3YXMgYSBzaW5nbGUKbWFuLCB3aG8gbGl2ZWQgdG8gYSB2ZXJ5IGFkdmFuY2VkIGFnZSwgYW5kIHdobyBmb3IgbWFueSB5ZWFycyBvZiBoaXMKbGlmZSwgaGFkIGEgY29uc3RhbnQgY29tcGFuaW9uIGFuZCBob3VzZWtlZXBlciBpbiBoaXMgc2lzdGVyLiAgQnV0IGhlcgpkZWF0aCwgd2hpY2ggaGFwcGVuZWQgdGVuIHllYXJzIGJlZm9yZSBoaXMgb3duLCBwcm9kdWNlZCBhIGdyZWF0CmFsdGVyYXRpb24gaW4gaGlzIGhvbWU7IGZvciB0byBzdXBwbHkgaGVyIGxvc3MsIGhlIGludml0ZWQgYW5kIHJlY2VpdmVkCmludG8gaGlzIGhvdXNlIHRoZSBmYW1pbHkgb2YgaGlzIG5lcGhldyBNci4gSGVucnkgRGFzaHdvb2QsIHRoZSBsZWdhbAppbmhlcml0b3Igb2YgdGhlIE5vcmxhbmQgZXN0YXRlLCBhbmQgdGhlIHBlcnNvbiB0byB3aG9tIGhlIGludGVuZGVkIHRvCmJlcXVlYXRoIGl0LiAgSW4gdGhlIHNvY2lldHkgb2YgaGlzIG5lcGhldyBhbmQgbmllY2UsIGFuZCB0aGVpcgpjaGlsZHJlbiwgdGhlIG9sZCBHZW50bGVtYW4ncyBkYXlzIHdlcmUgY29tZm9ydGFibHkgc3BlbnQuICBIaXMKYXR0YWNobWVudCB0byB0aGVtIGFsbCBpbmNyZWFzZWQuICBUaGUgY29uc3RhbnQgYXR0ZW50aW9uIG9mIE1yLiBhbmQKTXJzLiBIZW5yeSBEYXNod29vZCB0byBoaXMgd2lzaGVzLCB3aGljaCBwcm9jZWVkZWQgbm90IG1lcmVseSBmcm9tCmludGVyZXN0LCBidXQgZnJvbSBnb29kbmVzcyBvZiBoZWFydCwgZ2F2ZSBoaW0gZXZlcnkgZGVncmVlIG9mIHNvbGlkCmNvbWZvcnQgd2hpY2ggaGlzIGFnZSBjb3VsZCByZWNlaXZlOyBhbmQgdGhlIGNoZWVyZnVsbmVzcyBvZiB0aGUKY2hpbGRyZW4gYWRkZWQgYSByZWxpc2ggdG8gaGlzIGV4aXN0ZW5jZS4KYGBgCgpBbmQgbm93LCB0aGUgdGlkeSB2ZXJzaW9uIG9mIGFsbCBib29rIGNvbnRlbnRzCgpgYGB7ciB0aWR5X2Jvb2tzX3JhdywgZGVwZW5kc29uID0gIm9yaWdpbmFsX2Jvb2tzIn0KdGlkeV9ib29rcyA8LSBvcmlnaW5hbF9ib29rcyAlPiUKICB1bm5lc3RfdG9rZW5zKHdvcmQsIHRleHQpCgp0aWR5X2Jvb2tzCmBgYAoKVGhpcyBmdW5jdGlvbiB1c2VzIHRoZSBbdG9rZW5pemVyc10oaHR0cHM6Ly9naXRodWIuY29tL3JvcGVuc2NpL3Rva2VuaXplcnMpIHBhY2thZ2UgdG8gc2VwYXJhdGUgZWFjaCBsaW5lIG9mIHRleHQgaW4gdGhlIG9yaWdpbmFsIGRhdGEgZnJhbWUgaW50byB0b2tlbnMuIFRoZSBkZWZhdWx0IHRva2VuaXppbmcgaXMgZm9yIHdvcmRzLCBidXQgb3RoZXIgb3B0aW9ucyBpbmNsdWRlIGNoYXJhY3RlcnMsIG4tZ3JhbXMsIHNlbnRlbmNlcywgbGluZXMsIHBhcmFncmFwaHMsIG9yIHNlcGFyYXRpb24gYXJvdW5kIGEgcmVnZXggcGF0dGVybi4KCkxldCdzIGNvdW50IG1vc3QgZnJlcXVlbnQgd29yZHMKCmBgYHtyIGRlcGVuZHNvbiA9ICJ0aWR5X2Jvb2tzX3JhdyJ9CnRpZHlfYm9va3MgJT4lCiAgY291bnQod29yZCwgc29ydCA9IFRSVUUpIApgYGAKCk9vb3BzLCB0aGlzIGxpc3QgZG9lcyBub3QgZ2l2ZSBhbnkgc29ydCBvZiB1c2FibGUgaW5mb3JtYXRpb24uIE9mdGVuIGluIHRleHQgYW5hbHlzaXMsIHdlIHdpbGwgd2FudCB0byByZW1vdmUgc3RvcCB3b3Jkczsgc3RvcCB3b3JkcyBhcmUgd29yZHMgdGhhdCBhcmUgbm90IHVzZWZ1bCBmb3IgYW4gYW5hbHlzaXMsIHR5cGljYWxseSBleHRyZW1lbHkgY29tbW9uIHdvcmRzIHN1Y2ggYXMgInRoZSIsICJvZiIsICJ0byIsIGFuZCBzbyBmb3J0aCBpbiBFbmdsaXNoLiBXZSBjYW4gcmVtb3ZlIHN0b3Agd29yZHMgKGtlcHQgaW4gdGhlIHRpZHl0ZXh0IGRhdGFzZXQgYHN0b3Bfd29yZHNgKSB3aXRoIGFuIGBhbnRpX2pvaW4oKWAuCgpgYGB7ciB0aWR5X2Jvb2tzLCBkZXBlbmRzb24gPSAidGlkeV9ib29rc19yYXcifQpkYXRhKHN0b3Bfd29yZHMpCgp0aWR5X2Jvb2tzIDwtIHRpZHlfYm9va3MgJT4lCiAgYW50aV9qb2luKHN0b3Bfd29yZHMpCgp0aWR5X2Jvb2tzCmBgYAoKTGV0J3MgY2hlY2sgdGhlIHdvcmQgY291bnRzIGFnYWluLgoKYGBge3IgZGVwZW5kc29uID0gInRpZHlfYm9va3MifQp0aWR5X2Jvb2tzICU+JQogIGNvdW50KHdvcmQsIHNvcnQgPSBUUlVFKSAKYGBgCgpTaW5jZSB3ZSBoYXZlIHRoZSBkYXRhIGluIHRpZHkgZm9ybWF0LCBpdCB3b3VsZCBiZSBhIGJyZWV6ZSB0byBwaXBlIGl0IHRvIGBnZ3Bsb3RgIGFuZCBwcm9kdWNlIG5pY2UgcGxvdHMuCgpgYGB7ciBwbG90Y291bnQsIGRlcGVuZHNvbiA9ICJ0aWR5X2Jvb2tzIiwgZmlnLndpZHRoPTYsIGZpZy5oZWlnaHQ9NSwgZmlnLmNhcD0iVGhlIG1vc3QgY29tbW9uIHdvcmRzIGluIEphbmUgQXVzdGVuJ3Mgbm92ZWxzIn0KbGlicmFyeShnZ3Bsb3QyKQoKdGlkeV9ib29rcyAlPiUKICBjb3VudCh3b3JkLCBzb3J0ID0gVFJVRSkgJT4lCiAgZmlsdGVyKG4gPiA2MDApICU+JQojICBtdXRhdGUod29yZCA9IHJlb3JkZXIod29yZCwgbikpICU+JQogIGdncGxvdChhZXMod29yZCwgbikpICsKICBnZW9tX2NvbCgpICsKICB4bGFiKE5VTEwpICsKICBjb29yZF9mbGlwKCkKYGBgCgpEb24ndCBmb3JnZXQgdGhlIGZpeCB0aGUgcGxvdCBhYm92ZS4KCkFib3V0LCBvcmRlcmluZyBjb2x1bW5zLCBwbGVhc2UgZHJhdyB0aGUgcGxvdCBiZWxvdyBpbiBvcmRlcmVkIGZhc2hpb24KCmBgYHtyfQpkYXRhX2ZyYW1lKGxldHRlcnM9bGV0dGVyc1sxOjRdLCBjb3VudHM9YygyMCwzMCwxNSw1KSkgJT4lIAogICMgY29weS9wYXN0ZSB0aGUgbXV0YXRlIGNvZGUgZnJvbSBhYm92ZSBhbmQgbW9kaWZ5IHRvIG9yZGVyIGJhcnMKICBnZ3Bsb3QoYWVzKGxldHRlcnMsY291bnRzKSkgKwogIGdlb21fY29sKCkgKwogIHhsYWIoTlVMTCkgKwogIGNvb3JkX2ZsaXAoKQoKIyBwbGVhc2UgY2hlY2sgdGhlIGxldHRlcnMgY29sdW1uIGNsYXNzZXMKb3JkZXJlZCA8LSBkYXRhX2ZyYW1lKGxldHRlcnM9bGV0dGVyc1sxOjRdLCBjb3VudHM9YygyMCwzMCwxNSw1KSkgJT4lIAogIG11dGF0ZShsZXR0ZXJzID0gcmVvcmRlcihsZXR0ZXJzLCBjb3VudHMpKSAKCnVub3JkZXJlZCA8LSBkYXRhX2ZyYW1lKGxldHRlcnM9bGV0dGVyc1sxOjRdLCBjb3VudHM9YygyMCwzMCwxNSw1KSkKYGBgCgpQbGVhc2UgcmVmZXIgdG8gb3RoZXIgZXhhbXBsZXMgb2Ygd29yZCBmcmVxdWVuY3kgY2FsY3VsYXRpb24gZnJvbSBQcm9qZWN0IEd1dGVuYmVyZyBpbiB0aGUgYm9vayAoIFtDaGFwdGVyIDEuNF0oaHR0cDovL3RpZHl0ZXh0bWluaW5nLmNvbS90aWR5dGV4dC5odG1sI3RoZS1ndXRlbmJlcmdyLXBhY2thZ2UpICkgCgojIyBDaGFwdGVyIDIgLSBTZW50aW1lbnQgQW5hbHlzaXMKCiMjIyBUaGUgYHNlbnRpbWVudHNgIGRhdGFzZXQKCmBgYHtyfQpzZW50aW1lbnRzCgpzZW50aW1lbnRzICU+JSAKICBncm91cF9ieSh3b3JkKSAlPiUgCiAgbXV0YXRlKG5fc2VudD1uKCkpICU+JSAKICBhcnJhbmdlKC1uX3NlbnQsd29yZCkKYGBgCgpUaGUgdGhyZWUgZ2VuZXJhbC1wdXJwb3NlIGxleGljb25zIGFyZQoKKiBgQUZJTk5gIGZyb20gW0Zpbm4gw4VydXAgTmllbHNlbl0oaHR0cDovL3d3dzIuaW1tLmR0dS5kay9wdWJkYi92aWV3cy9wdWJsaWNhdGlvbl9kZXRhaWxzLnBocD9pZD02MDEwKSwKKiBgYmluZ2AgZnJvbSBbQmluZyBMaXUgYW5kIGNvbGxhYm9yYXRvcnNdKGh0dHBzOi8vd3d3LmNzLnVpYy5lZHUvfmxpdWIvRkJTL3NlbnRpbWVudC1hbmFseXNpcy5odG1sKSwgYW5kCiogYG5yY2AgZnJvbSBbU2FpZiBNb2hhbW1hZCBhbmQgUGV0ZXIgVHVybmV5XShodHRwOi8vc2FpZm1vaGFtbWFkLmNvbS9XZWJQYWdlcy9OUkMtRW1vdGlvbi1MZXhpY29uLmh0bSkuCgpgdGlkeXRleHRgIHByb3ZpZGVzIGEgZnVuY3Rpb24gYGdldF9zZW50aW1lbnRzKClgIHRvIGdldCBzcGVjaWZpYyBzZW50aW1lbnQgbGV4aWNvbnMgd2l0aG91dCB0aGUgY29sdW1ucyB0aGF0IGFyZSBub3QgdXNlZCBpbiB0aGF0IGxleGljb24uCgpgYGB7cn0KZ2V0X3NlbnRpbWVudHMoImFmaW5uIikKZ2V0X3NlbnRpbWVudHMoImJpbmciKQpnZXRfc2VudGltZW50cygibnJjIikKYGBgCgojIyMgU2VudGltZW50IGFuYWx5c2lzIHdpdGggaW5uZXIgam9pbgoKV2l0aCBkYXRhIGluIGEgdGlkeSBmb3JtYXQsIHNlbnRpbWVudCBhbmFseXNpcyBjYW4gYmUgZG9uZSBhcyBhbiBpbm5lciBqb2luLiBUaGlzIGlzIGFub3RoZXIgb2YgdGhlIGdyZWF0IHN1Y2Nlc3NlcyBvZiB2aWV3aW5nIHRleHQgbWluaW5nIGFzIGEgdGlkeSBkYXRhIGFuYWx5c2lzIHRhc2s7IG11Y2ggYXMgcmVtb3Zpbmcgc3RvcCB3b3JkcyBpcyBhbiBhbnRpam9pbiBvcGVyYXRpb24sIHBlcmZvcm1pbmcgc2VudGltZW50IGFuYWx5c2lzIGlzIGFuIGlubmVyIGpvaW4gb3BlcmF0aW9uLgoKTGV0J3MgbG9vayBhdCB0aGUgd29yZHMgd2l0aCBhIGpveSBzY29yZSBmcm9tIHRoZSBOUkMgbGV4aWNvbi4gV2hhdCBhcmUgdGhlIG1vc3QgY29tbW9uIGpveSB3b3JkcyBpbiAqRW1tYSo/CgpgYGB7ciBucmNqb3ksIGRlcGVuZHNvbiA9ICJ0aWR5X2Jvb2tzIn0KbnJjam95IDwtIGdldF9zZW50aW1lbnRzKCJucmMiKSAlPiUgCiAgZmlsdGVyKHNlbnRpbWVudCA9PSAiam95IikKCnRpZHlfYm9va3MgJT4lCiAgZmlsdGVyKGJvb2sgPT0gIkVtbWEiKSAlPiUKICBpbm5lcl9qb2luKG5yY2pveSkgJT4lCiAgY291bnQod29yZCwgc29ydCA9IFRSVUUpCmBgYAoKU21hbGwgc2VjdGlvbnMgb2YgdGV4dCBtYXkgbm90IGhhdmUgZW5vdWdoIHdvcmRzIGluIHRoZW0gdG8gZ2V0IGEgZ29vZCBlc3RpbWF0ZSBvZiBzZW50aW1lbnQgd2hpbGUgcmVhbGx5IGxhcmdlIHNlY3Rpb25zIGNhbiB3YXNoIG91dCBuYXJyYXRpdmUgc3RydWN0dXJlLiBGb3IgdGhlc2UgYm9va3MsIHVzaW5nIDgwIGxpbmVzIHdvcmtzIHdlbGwsIGJ1dCB0aGlzIGNhbiB2YXJ5IGRlcGVuZGluZyBvbiBpbmRpdmlkdWFsIHRleHRzLCBob3cgbG9uZyB0aGUgbGluZXMgd2VyZSB0byBzdGFydCB3aXRoLCBldGMuIFdlIHRoZW4gdXNlIGBzcHJlYWQoKWAgc28gdGhhdCB3ZSBoYXZlIG5lZ2F0aXZlIGFuZCBwb3NpdGl2ZSBzZW50aW1lbnQgaW4gc2VwYXJhdGUgY29sdW1ucywgYW5kIGxhc3RseSBjYWxjdWxhdGUgYSBuZXQgc2VudGltZW50IChwb3NpdGl2ZSAtIG5lZ2F0aXZlKS4KCj4gVGhlIGAlLyVgIG9wZXJhdG9yIGRvZXMgaW50ZWdlciBkaXZpc2lvbiAoYHggJS8lIHlgIGlzIGVxdWl2YWxlbnQgdG8gYGZsb29yKHgveSlgKSBzbyB0aGUgaW5kZXgga2VlcHMgdHJhY2sgb2Ygd2hpY2ggODAtbGluZSBzZWN0aW9uIG9mIHRleHQgd2UgYXJlIGNvdW50aW5nIHVwIG5lZ2F0aXZlIGFuZCBwb3NpdGl2ZSBzZW50aW1lbnQgaW4uIAoKYGBge3IgamFuZWF1c3RlbnNlbnRpbWVudCwgZGVwZW5kc29uID0gInRpZHlfYm9va3MifQpsaWJyYXJ5KHRpZHlyKQoKamFuZWF1c3RlbnNlbnRpbWVudCA8LSB0aWR5X2Jvb2tzICU+JQogIGlubmVyX2pvaW4oZ2V0X3NlbnRpbWVudHMoImJpbmciKSkgJT4lCiAgbXV0YXRlKGluZGV4PSBsaW5lbnVtYmVyICUvJSA4MCkgJT4lIAogIGNvdW50KGJvb2ssIGluZGV4ICwgc2VudGltZW50KSAlPiUKICBzcHJlYWQoc2VudGltZW50LCBuLCBmaWxsID0gMCkgJT4lCiAgbXV0YXRlKHNlbnRpbWVudCA9IHBvc2l0aXZlIC0gbmVnYXRpdmUpCmBgYAoKTm93IHdlIGNhbiBwbG90IHRoZXNlIHNlbnRpbWVudCBzY29yZXMgYWNyb3NzIHRoZSBwbG90IHRyYWplY3Rvcnkgb2YgZWFjaCBub3ZlbC4gTm90aWNlIHRoYXQgd2UgYXJlIHBsb3R0aW5nIGFnYWluc3QgdGhlIGBpbmRleGAgb24gdGhlIHgtYXhpcyB0aGF0IGtlZXBzIHRyYWNrIG9mIG5hcnJhdGl2ZSB0aW1lIGluIHNlY3Rpb25zIG9mIHRleHQuCgpgYGB7ciBzZW50aW1lbnRwbG90LCBkZXBlbmRzb24gPSAiamFuZWF1c3RlbnNlbnRpbWVudCIsIGZpZy53aWR0aD05LCBmaWcuaGVpZ2h0PTEwLCBmaWcuY2FwPSJTZW50aW1lbnQgdGhyb3VnaCB0aGUgbmFycmF0aXZlcyBvZiBKYW5lIEF1c3RlbidzIG5vdmVscyJ9CmxpYnJhcnkoZ2dwbG90MikKCmdncGxvdChqYW5lYXVzdGVuc2VudGltZW50LCBhZXMoaW5kZXgsIHNlbnRpbWVudCwgZmlsbCA9IGJvb2spKSArCiAgZ2VvbV9jb2woc2hvdy5sZWdlbmQgPSBGQUxTRSkgKwogIGZhY2V0X3dyYXAofmJvb2ssIG5jb2wgPSAyLCBzY2FsZXMgPSAiZnJlZV94IikKYGBgCgojIyMgTW9zdCBjb21tb24gcG9zaXRpdmUgYW5kIG5lZ2F0aXZlIHdvcmRzCgpPbmUgYWR2YW50YWdlIG9mIGhhdmluZyB0aGUgZGF0YSBmcmFtZSB3aXRoIGJvdGggc2VudGltZW50IGFuZCB3b3JkIGlzIHRoYXQgd2UgY2FuIGFuYWx5emUgd29yZCBjb3VudHMgdGhhdCBjb250cmlidXRlIHRvIGVhY2ggc2VudGltZW50LiAKCmBgYHtyIHdvcmRjb3VudHMsIGRlcGVuZHNvbiA9ICJ0aWR5X2Jvb2tzIn0KYmluZ193b3JkX2NvdW50cyA8LSB0aWR5X2Jvb2tzICU+JQogIGlubmVyX2pvaW4oZ2V0X3NlbnRpbWVudHMoImJpbmciKSkgJT4lCiAgY291bnQod29yZCwgc2VudGltZW50LCBzb3J0ID0gVFJVRSkgJT4lCiAgdW5ncm91cCgpCgpiaW5nX3dvcmRfY291bnRzCmBgYAoKVGhpcyBjYW4gYmUgc2hvd24gdmlzdWFsbHksIGFuZCB3ZSBjYW4gcGlwZSBzdHJhaWdodCBpbnRvIGdncGxvdDIsIGlmIHdlIGxpa2UsIGJlY2F1c2Ugb2YgdGhlIHdheSB3ZSBhcmUgY29uc2lzdGVudGx5IHVzaW5nIHRvb2xzIGJ1aWx0IGZvciBoYW5kbGluZyB0aWR5IGRhdGEgZnJhbWVzLgoKVGhlcmUncyBhIHByb2JsZW0gd2l0aCB0aGUgd29yZCBgbWlzc2AuIEluIHRoZSBjb250ZXh0IG9mIEphbmUgQXVzdGVuJ3MgYm9va3MsIGl0IG1lYW5zIGBNaXNzLmAgYXMgYE1yLmAgYW5kIGBNcnMuYC4gUGxlYXNlIHJlZmVyIHRvIFtTZWN0aW9uIDIuNF0oaHR0cDovL3RpZHl0ZXh0bWluaW5nLmNvbS9zZW50aW1lbnQuaHRtbCNtb3N0LXBvc2l0aXZlLW5lZ2F0aXZlKSB0byBzZWUgaG93IGEgcGFydGljdWxhciB3b3JkIGNhbiBiZSByZW1vdmVkIGJ5IGFkZGluZyB0byBgc3RvcF93b3Jkc2AuCgpgYGB7ciBwaXBldG9wbG90LCBkZXBlbmRzb24gPSAid29yZGNvdW50cyIsIGZpZy53aWR0aD04LCBmaWcuaGVpZ2h0PTQsIGZpZy5jYXA9IldvcmRzIHRoYXQgY29udHJpYnV0ZSB0byBwb3NpdGl2ZSBhbmQgbmVnYXRpdmUgc2VudGltZW50IGluIEphbmUgQXVzdGVuJ3Mgbm92ZWxzIn0KYmluZ193b3JkX2NvdW50cyAlPiUKICBncm91cF9ieShzZW50aW1lbnQpICU+JQogIHRvcF9uKDEwKSAlPiUKICB1bmdyb3VwKCkgJT4lCiAgbXV0YXRlKHdvcmQgPSByZW9yZGVyKHdvcmQsIG4pKSAlPiUKICBnZ3Bsb3QoYWVzKHdvcmQsIG4sIGZpbGwgPSBzZW50aW1lbnQpKSArCiAgZ2VvbV9jb2woc2hvdy5sZWdlbmQgPSBGQUxTRSkgKwogIGZhY2V0X3dyYXAofnNlbnRpbWVudCwgc2NhbGVzID0gImZyZWVfeSIpICsKICBsYWJzKHkgPSAiQ29udHJpYnV0aW9uIHRvIHNlbnRpbWVudCIsCiAgICAgICB4ID0gTlVMTCkgKwogIGNvb3JkX2ZsaXAoKQpgYGAKCiMgQXNzaWdubWVudCBGb3IgTmV4dCBXZWVrCgoqIFtTZW50aW1lbnQgQW5hbHlzaXMgaW4gUjogVGhlIFRpZHkgV2F5XShodHRwczovL3d3dy5kYXRhY2FtcC5jb20vY291cnNlcy9zZW50aW1lbnQtYW5hbHlzaXMtaW4tci10aGUtdGlkeS13YXkpCgo+IFdlJ2xsIGJlIGhhdmluZyBhIHF1aXogZnJvbSB0aGUgY291cnNlIGNvbnRlbnRzLCBib3RoIHRvZGF5J3MgbGVjdHVyZSBhbmQgRGF0YUNhbXAgY291cnNlLgo=

Data Analysis and Visualization Lesson 10 Text Mining - Part 1

alper yilmaz

November 21st, 2017

Midterm Grades

Text Mining, the Tidy Way

Chapter 1 - Tidy Text Format

Contrasting tidy text with other data structures

The `unnest_tokens` function

Tidying the works of Jane Austen

Chapter 2 - Sentiment Analysis

The `sentiments` dataset

Sentiment analysis with inner join

Most common positive and negative words

Assignment For Next Week

Data Analysis and Visualization Lesson 10 Text Mining - Part 1

alper yilmaz

November 21st, 2017

Midterm Grades

Text Mining, the Tidy Way

Chapter 1 - Tidy Text Format

Contrasting tidy text with other data structures

The unnest_tokens function

Tidying the works of Jane Austen

Chapter 2 - Sentiment Analysis

The sentiments dataset

Sentiment analysis with inner join

Most common positive and negative words

Assignment For Next Week

The `unnest_tokens` function

The `sentiments` dataset