Announcements

DataCamp status

To be announced soon..

Grade distribution

Due to DataCamp case, the contribution of grade points is planned to be as follows (subject to change).

Item	Total contribution to 100 points
Midterm	30
Final	40
Quiz	15
DataCamp assignments	5
Question Pool	5
Attendance	5
Project (Bonus)	7

A bonus Project item has been added. The details of the project are as follows:

Pubmed abstracts from multiple journals are to be analyzed.
Use as many as possible concepts in your analysis (text analysis, modelling, etc)
Visualizations and dashboards should be used.

Text Mining, the Tidy Way, Part 2

Before we start, please make sure the following libraries are installed

library(tidytext)
library(janeaustenr)
library(stringr)
library(tidyverse)
library(ggplot2)
library(ggraph)
library(igraph)
library(tidygraph)
library(widyr)   # OPTIONAL library(devtools) then install_github("dgrtwo/widyr")

Last time, we removed stop words and added sentiment from 3 different sources. We were able to track the positive or negative sentiments throughout the chapters. Finally, we calculated most common negative and positive words in Jane Austen’s 6 books.

Now, we’ll do more fun stuff. It will be a rough ride, with many diverse topics, so please buckle up. We’re still following the book Text Mining with R which can be accessed online here. The R code of the book is available at this Github repo. Some sections will be from different resources, and necessary links to those resources will be provided.

Chapter 3 - word and document frequency - TF-IDF

In order to quantify what a document is about, we can looking at the words that make up the document. Term frequency (tf), reports how frequently a word occurs in a document. It is possible that some of these words might be more important in some documents than others. A list of stop words is not a very sophisticated approach to adjusting term frequency for commonly used words.

A term’s inverse document frequency (idf), which decreases the weight for commonly used words and increases the weight for words that are not used very much in a collection of documents. This can be combined with term frequency to calculate a term’s tf-idf (the two quantities multiplied together), the frequency of a term adjusted for how rarely it is used.

The statistic tf-idf is intended to measure how important a word is to a document in a collection (or corpus) of documents, for example, to one novel in a collection of novels or to one website in a collection of websites.

The inverse document frequency for any given term is defined as

\[idf(\text{term}) = \ln{\left(\frac{n_{\text{documents}}}{n_{\text{documents containing term}}}\right)}\]

Let’s calculate tf in Jane Austen’s books with tidy principles

book_words <- austen_books() %>%
  unnest_tokens(word, text) %>%
  count(book, word, sort = TRUE) 
total_words <- book_words %>% 
  group_by(book) %>% 
  summarize(total = sum(n))
book_words <- left_join(book_words, total_words)

Joining, by = "book"

book_words

In book_words, n is the number of times that word is used in that book and total is the total words in that book. Term frequency is the number of times a word appears in a novel divided by the total number of terms (words) in that novel.

Below is the distribution of

ggplot(book_words, aes(n/total, fill = book)) +
  geom_histogram(show.legend = FALSE) +
  xlim(NA, 0.0009) +
  facet_wrap(~book, ncol = 2, scales = "free_y")

Zipf’s law states that the frequency that a word appears is inversely proportional to its rank.

Zipf’s law can be observed in natural languages. Can we observe it in DNA sequence?

freq_by_rank <- book_words %>% 
  group_by(book) %>% 
  mutate(rank = row_number(), 
         tf = n/total)
freq_by_rank

The rank column here tells us the rank of each word within the frequency table; the table was already ordered by n so we could use row_number() to find the rank.

freq_by_rank %>% 
  ggplot(aes(rank, tf, color = book)) + 
  geom_line(size = 1.1, alpha = 0.8, show.legend = FALSE) + 
  scale_x_log10() +
  scale_y_log10()

Notice that figure above is in log-log coordinates. We see that all six of Jane Austen’s novels are similar to each other, and that the relationship between rank and frequency does have negative slope. It is not quite constant, though; perhaps we could view this as a broken power law with, say, three sections.

The `bind_tf_idf` function

The idea of tf-idf is to find the important words for the content of each document by decreasing the weight for commonly used words and increasing the weight for words that are not used very much in a collection or corpus of documents, in this case, the group of Jane Austen’s novels as a whole. Calculating tf-idf attempts to find the words that are important (i.e., common) in a text, but not too common. Let’s do that now.

The bind_tf_idf function in the tidytext package takes a tidy text dataset as input with one row per token (term), per document. One column (word here) contains the terms/tokens, one column contains the documents (book in this case), and the last necessary column contains the counts, how many times each document contains each term (n in this example). We calculated a total for each book for our explorations in previous sections, but it is not necessary for the bind_tf_idf function; the table only needs to contain all the words in each document.

book_words <- book_words %>%
  bind_tf_idf(word, book, n)
book_words

Calculate tf and idf from scratch

austen_books() %>%
  unnest_tokens(word, text) %>%
  count(book, word, sort = TRUE) %>% 
  bind_tf_idf(word,book,n)

Notice that idf and thus tf-idf are zero for these extremely common words. These are all words that appear in all six of Jane Austen’s novels, so the idf term (which will then be the natural log of 1) is zero. The inverse document frequency (and thus tf-idf) is very low (near zero) for words that occur in many of the documents in a collection; this is how this approach decreases the weight for common words. The inverse document frequency will be a higher number for words that occur in fewer of the documents in the collection.

Let’s look at terms with high tf-idf in Jane Austen’s works.

book_words %>%
  select(-total) %>%
  arrange(desc(tf_idf))

Here we see all proper nouns, names that are in fact important in these novels. None of them occur in all of novels, and they are important, characteristic words for each text within the corpus of Jane Austen’s novels.

Let’s look at a visualization for these high tf-idf words (please fix the code below for sorted view and please refer to stackoverflow answer about ordering the words)

book_words %>%
  arrange(desc(tf_idf)) %>%
#  mutate(word = factor(word, levels = rev(unique(word)))) %>%
  mutate(word = reorder(word,n)) %>%  
  group_by(book) %>% 
  top_n(15) %>% 
  ungroup %>%
  ggplot(aes(word, tf_idf, fill = book)) +
  geom_col(show.legend = FALSE) +
  labs(x = NULL, y = "tf-idf") +
  facet_wrap(~book, ncol = 2, scales = "free") +
  coord_flip()

Selecting by tf_idf

Let’s extract small portion of the table in order to understand the ordering

# TODO a small data frame as example
book_words %>%
  arrange(desc(tf_idf)) %>% 
  filter(word %in% c("elizabeth","lizzy","fanny","thomas","bertram","emma","weston")) %>% 
#  mutate(word = factor(word, levels = rev(unique(word)))) %>% 
 mutate(word= reorder(word,tf_idf))  %>% select(word,tf_idf) -> test

Still all proper nouns in Figure @ref(fig:plotseparate)! These words are, as measured by tf-idf, the most important to each novel and most readers would likely agree. What measuring tf-idf has done here is show us that Jane Austen used similar language across her six novels, and what distinguishes one novel from the rest within the collection of her works are the proper nouns, the names of people and places. This is the point of tf-idf; it identifies words that are important to one document within a collection of documents.

In summary, using term frequency and inverse document frequency allows us to find words that are characteristic for one document within a collection of documents, whether that document is a novel or physics text or webpage.

Chapter 4 - Relationship between words

So far we’ve considered words as individual units, and considered their relationships to sentiments or to documents. However, many interesting text analyses are based on the relationships between words, whether examining which words tend to follow others immediately, or that tend to co-occur within the same documents.

In this chapter, we’ll explore some of the methods tidytext offers for calculating and visualizing relationships between words in your text dataset. This includes the token = "ngrams" argument, which tokenizes by pairs of adjacent words rather than by individual ones. We’ll also introduce two new packages: ggraph, which extends ggplot2 to construct network plots, and widyr, which calculates pairwise correlations and distances within a tidy data frame. Together these expand our toolbox for exploring text within the tidy data framework.

Tokenizing by n-gram

We’ve been using the unnest_tokens function to tokenize by word, or sometimes by sentence, which is useful for the kinds of sentiment and frequency analyses we’ve been doing so far. But we can also use the function to tokenize into consecutive sequences of words, called n-grams. By seeing how often word X is followed by word Y, we can then build a model of the relationships between them.

We do this by adding the token = "ngrams" option to unnest_tokens(), and setting n to the number of words we wish to capture in each n-gram. When we set n to 2, we are examining pairs of two consecutive words, often called “bigrams”:

austen_bigrams <- austen_books() %>%
  unnest_tokens(bigram, text, token = "ngrams", n = 2)
austen_bigrams

This data structure is still a variation of the tidy text format. It is structured as one-token-per-row (with extra metadata, such as book, still preserved), but each token now represents a bigram.

Notice that these bigrams overlap: “sense and” is one token, while “and sensibility” is another.

Counting and filtering n-grams

Our usual tidy tools apply equally well to n-gram analysis. We can examine the most common bigrams using dplyr’s count():

austen_bigrams %>%
  count(bigram, sort = TRUE)

As one might expect, a lot of the most common bigrams are pairs of common (uninteresting) words, such as of the and to be: what we call “stop-words”. This is a useful time to use tidyr’s separate(), which splits a column into multiple based on a delimiter. This lets us separate it into two columns, “word1” and “word2”, at which point we can remove cases where either is a stop-word.

bigrams_separated <- austen_bigrams %>%
  separate(bigram, c("word1", "word2"), sep = " ")
# bigrams_separated %>% 
#   count(word1,word2,sort=TRUE)
bigrams_filtered <- bigrams_separated %>%
  filter(!word1 %in% stop_words$word) %>%
  filter(!word2 %in% stop_words$word)
# OR
# bigrams_separated %>%
#   anti_join(stop_words, by=c("word1"="word")) %>% 
#   anti_join(stop_words, by=c("word2"="word")) 
# new bigram counts:
bigram_counts <- bigrams_filtered %>% 
  count(word1, word2, sort = TRUE)
bigram_counts

We can see that names (whether first and last or with a salutation) are the most common pairs in Jane Austen books.

In other analyses, we may want to work with the recombined words. tidyr’s unite() function is the inverse of separate(), and lets us recombine the columns into one. Thus, “separate/filter/count/unite” let us find the most common bigrams not containing stop-words.

bigrams_united <- bigrams_filtered %>%
  unite(bigram, word1, word2, sep = " ")
bigrams_united

In other analyses you may be interested in the most common trigrams, which are consecutive sequences of 3 words. We can find this by setting n = 3:

austen_books() %>%
  unnest_tokens(trigram, text, token = "ngrams", n = 3) %>%
  separate(trigram, c("word1", "word2", "word3"), sep = " ") %>%
  filter(!word1 %in% stop_words$word,
         !word2 %in% stop_words$word,
         !word3 %in% stop_words$word) %>%
  count(word1, word2, word3, sort = TRUE)

Analyzing bigrams

This one-bigram-per-row format is helpful for exploratory analyses of the text. As a simple example, we might be interested in the most common “streets” mentioned in each book:

bigrams_filtered %>%
  filter(word2 == "street") %>%
  count(book, word1, sort = TRUE)

A bigram can also be treated as a term in a document in the same way that we treated individual words. For example, we can look at the tf-idf of bigrams across Austen novels. These tf-idf values can be visualized within each book, just as we did for words.

bigrams_united <- bigrams_filtered %>%
  unite(bigram, word1, word2, sep = " ")
bigram_tf_idf <- bigrams_united %>%
  count(book, bigram) %>%
  bind_tf_idf(bigram, book, n) %>%
  arrange(desc(tf_idf))
bigram_tf_idf

Much as we discovered in Chapter @ref(tfidf), the units that distinguish each Austen book are almost exclusively names. We also notice some pairings of a common verb and a name, such as “replied elizabeth” in Pride & Prejudice, or “cried emma” in Emma.

There are advantages and disadvantages to examining the tf-idf of bigrams rather than individual words. Pairs of consecutive words might capture structure that isn’t present when one is just counting single words, and may provide context that makes tokens more understandable (for example, “pulteney street”, in Northanger Abbey, is more informative than “pulteney”). However, the per-bigram counts are also sparser: a typical two-word pair is rarer than either of its component words. Thus, bigrams can be especially useful when you have a very large text dataset.

Using bigrams to provide context in sentiment analysis

Our sentiment analysis approach in Chapter @ref(sentiment) simply counted the appearance of positive or negative words, according to a reference lexicon. One of the problems with this approach is that a word’s context can matter nearly as much as its presence. For example, the words “happy” and “like” will be counted as positive, even in a sentence like “I’m not happy and I don’t like it!”

Now that we have the data organized into bigrams, it’s easy to tell how often words are preceded by a word like “not”:

bigrams_separated %>%
  filter(word1 == "not") %>%
  count(word1, word2, sort = TRUE)

By performing sentiment analysis on the bigram data, we can examine how often sentiment-associated words are preceded by “not” or other negating words. We could use this to ignore or even reverse their contribution to the sentiment score.

Let’s use the AFINN lexicon for sentiment analysis, which you may recall gives a numeric sentiment score for each word, with positive or negative numbers indicating the direction of the sentiment.

AFINN <- get_sentiments("afinn")
AFINN

We can then examine the most frequent words that were preceded by “not” and were associated with a sentiment.

not_words <- bigrams_separated %>%
  filter(word1 == "not") %>%
  inner_join(AFINN, by = c(word2 = "word")) %>%
  count(word2, score, sort = TRUE) %>%
  ungroup()
not_words

For example, the most common sentiment-associated word to follow “not” was “like”, which would normally have a (positive) score of 2.

It’s worth asking which words contributed the most in the “wrong” direction. To compute that, we can multiply their score by the number of times they appear (so that a word with a score of +3 occurring 10 times has as much impact as a word with a sentiment score of +1 occurring 30 times). We visualize the result with a bar plot.

not_words %>%
  mutate(contribution = n * score) %>%
  arrange(desc(abs(contribution))) %>%
  head(20) %>%
  mutate(word2 = reorder(word2, contribution)) %>%
  ggplot(aes(word2, n * score, fill = n * score > 0)) +
  geom_col(show.legend = FALSE) +
  xlab("Words preceded by \"not\"") +
  ylab("Sentiment score * number of occurrences") +
  coord_flip()

The bigrams “not like” and “not help” were overwhelmingly the largest causes of misidentification, making the text seem much more positive than it is. But we can see phrases like “not afraid” and “not fail” sometimes suggest text is more negative than it is.

Please refer to related chapter for more about negation words, such as “not”, “no”, “never”, “without”.

Visualizing a network of bigrams with ggraph

We may be interested in visualizing all of the relationships among words simultaneously, rather than just the top few at a time. As one common visualization, we can arrange the words into a network, or “graph.” Here we’ll be referring to a “graph” not in the sense of a visualization, but as a combination of connected nodes. A graph can be constructed from a tidy object since it has three variables:

from: the node an edge is coming from
to: the node an edge is going towards
weight: A numeric value associated with each edge

The igraph package has many powerful functions for manipulating and analyzing networks. One way to create an igraph object from tidy data is the graph_from_data_frame() function, which takes a data frame of edges with columns for “from”, “to”, and edge attributes (in this case n):

library(igraph)
# original counts
bigram_counts

# filter for only relatively common combinations
bigram_graph <- bigram_counts %>%
  filter(n > 20) %>%
  graph_from_data_frame()
bigram_graph

IGRAPH dce38b3 DN-- 91 77 -- 
+ attr: name (v/c), n (e/n)
+ edges from dce38b3 (vertex names):
 [1] sir      ->thomas     miss     ->crawford   captain  ->wentworth  miss     ->woodhouse  frank    ->churchill  lady     ->russell   
 [7] lady     ->bertram    sir      ->walter     miss     ->fairfax    colonel  ->brandon    miss     ->bates      lady     ->catherine 
[13] sir      ->john       jane     ->fairfax    miss     ->tilney     lady     ->middleton  miss     ->bingley    thousand ->pounds    
[19] miss     ->dashwood   miss     ->bennet     john     ->knightley  miss     ->morland    captain  ->benwick    dear     ->miss      
[25] miss     ->smith      miss     ->crawford's henry    ->crawford   miss     ->elliot     dr       ->grant      miss     ->bertram   
[31] sir      ->thomas's   ten      ->minutes    miss     ->price      miss     ->taylor     sir      ->william    john     ->dashwood  
[37] de       ->bourgh     dear     ->sir        dear     ->fanny      miss     ->darcy      mansfield->park       captain  ->harville  
[43] charles  ->hayter     dear     ->emma       maple    ->grove      lady     ->russell's  miss     ->steeles    cried    ->emma      
+ ... omitted several edges

The internals of igraph package might be overwhelming. Thus, there’s a tidy solution for graph analysis. The tidygraph package can represent the graph in tibble format. More than that, the graph nodes or edges can be manipulated with dplyr verbs. There are very interesting additional verbs which are worth checking.

The same import into graph can be achieved with tidygraph as well. You can import an existing igraph object or generate a graph from data frame.

Importing an existing igraph object

as_tbl_graph(bigram_graph)

# A tbl_graph: 91 nodes and 77 edges
#
# A directed acyclic simple graph with 17 components
#
# Node Data: 91 x 1 (active)
     name
    <chr>
1     sir
2    miss
3 captain
4   frank
5    lady
6 colonel
# ... with 85 more rows
#
# Edge Data: 77 x 3
   from    to     n
  <int> <int> <int>
1     1    28   287
2     2    29   215
3     3    30   170
# ... with 74 more rows

Tbl_graph from a data frame

 bigram_counts %>%
  filter(n > 20) %>% 
  as_tbl_graph()

# A tbl_graph: 91 nodes and 77 edges
#
# A directed acyclic simple graph with 17 components
#
# Node Data: 91 x 1 (active)
     name
    <chr>
1     sir
2    miss
3 captain
4   frank
5    lady
6 colonel
# ... with 85 more rows
#
# Edge Data: 77 x 3
   from    to     n
  <int> <int> <int>
1     1    28   287
2     2    29   215
3     3    30   170
# ... with 74 more rows

igraph has plotting functions built in, but they’re not what the package is designed to do, so many other packages have developed visualization methods for graph objects. We recommend the ggraph package, because it implements these visualizations in terms of the grammar of graphics, which we are already familiar with from ggplot2.

We can convert an igraph object into a ggraph with the ggraph function, after which we add layers to it, much like layers are added in ggplot2. For example, for a basic graph we need to add three layers: nodes, edges, and text.

library(ggraph)
set.seed(2017)
#plot(bigram_graph)
ggraph(bigram_graph, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_text(aes(label = name), vjust = 1, hjust = 1)

In Figure, we can visualize some details of the text structure. For example, we see that salutations such as “miss”, “lady”, “sir”, “and”colonel" form common centers of nodes, which are often followed by names. We also see pairs or triplets along the outside that form common short phrases (“half hour”, “thousand pounds”, or “short time/pause”).

We conclude with a few polishing operations to make a better looking graph:

We add the edge_alpha aesthetic to the link layer to make links transparent based on how common or rare the bigram is
We add directionality with an arrow, constructed using grid::arrow(), including an end_cap option that tells the arrow to end before touching the node
We tinker with the options to the node layer to make the nodes more attractive (larger, blue points)
We add a theme that’s useful for plotting networks, theme_void()

set.seed(2016)
a <- grid::arrow(type = "closed", length = unit(.15, "inches"))
ggraph(bigram_graph, layout = "fr") +
  geom_edge_link(aes(edge_alpha = n), show.legend = FALSE,
                 arrow = a, end_cap = circle(.07, 'inches')) +
  geom_node_point(color = "lightblue", size = 5) +
  geom_node_text(aes(label = name), vjust = 1, hjust = 1) +
  theme_void()

It may take a some experimentation with ggraph to get your networks into a presentable format like this, but the network structure is useful and flexible way to visualize relational tidy data.

Note that this is a visualization of a Markov chain, a common model in text processing. In a Markov chain, each choice of word depends only on the previous word. In this case, a random generator following this model might spit out “dear”, then “sir”, then “william/walter/thomas/thomas’s”, by following each word to the most common words that follow it. To make the visualization interpretable, we chose to show only the most common word to word connections, but one could imagine an enormous graph representing all connections that occur in the text.

Visualizing bigrams in other texts

Please refer to related section in Text Mining book which analyzes bigrams in Bible and generates the following diagram.

King James version Bible word pair network

Figure above thus lays out a common “blueprint” of language within the Bible, particularly focused around “thy” and “thou” (which could probably be considered stopwords!) You can use the gutenbergr package and these count_bigrams/visualize_bigrams functions to visualize bigrams in other classic books you’re interested in.

Counting and correlating pairs of words with the widyr package

Tokenizing by n-gram is a useful way to explore pairs of adjacent words. However, we may also be interested in words that tend to co-occur within particular documents or particular chapters, even if they don’t occur next to each other.

Tidy data is a useful structure for comparing between variables or grouping by rows, but it can be challenging to compare between rows: for example, to count the number of times that two words appear within the same document, or to see how correlated they are. Most operations for finding pairwise counts or correlations need to turn the data into a wide matrix first.

widyr package

We’ll examine some of the ways tidy text can be turned into a wide matrix, but in this case it isn’t necessary. The widyr package makes operations such as computing counts and correlations easy, by simplifying the pattern of “widen data, perform an operation, then re-tidy data” (Figure above). We’ll focus on a set of functions that make pairwise comparisons between groups of observations (for example, between documents, or sections of text).

Counting and correlating among sections

Consider the book “Pride and Prejudice” divided into 10-line sections, as we did (with larger sections) for sentiment analysis Chapter. We may be interested in what words tend to appear within the same section.

austen_section_words <- austen_books() %>%
  filter(book == "Pride & Prejudice") %>%
  mutate(section = row_number() %/% 10) %>%
  filter(section > 0) %>%
  unnest_tokens(word, text) %>%
  filter(!word %in% stop_words$word)
austen_section_words

One useful function from widyr is the pairwise_count() function. The prefix pairwise_ means it will result in one row for each pair of words in the word variable. This lets us count common pairs of words co-appearing within the same section:

library(widyr)
# count words co-occuring within sections
word_pairs <- austen_section_words %>%
  pairwise_count(word, section, sort = TRUE)
word_pairs

Notice that while the input had one row for each pair of a document (a 10-line section) and a word, the output has one row for each pair of words. This is also a tidy format, but of a very different structure that we can use to answer new questions.

For example, we can see that the most common pair of words in a section is “Elizabeth” and “Darcy” (the two main characters). We can easily find the words that most often occur with Darcy:

word_pairs %>%
  filter(item1 == "darcy")

Pairwise correlation

Pairs like “Elizabeth” and “Darcy” are the most common co-occurring words, but that’s not particularly meaningful since they’re also the most common individual words. We may instead want to examine correlation among words, which indicates how often they appear together relative to how often they appear separately.

In particular, here we’ll focus on the phi coefficient, a common measure for binary correlation. The focus of the phi coefficient is how much more likely it is that either both word X and Y appear, or neither do, than that one appears without the other.

Consider the following table:

	Has word Y	No word Y	Total
Has word X	\(n_{11}\)	\(n_{10}\)	\(n_{1\cdot}\)
No word X	\(n_{01}\)	\(n_{00}\)	\(n_{0\cdot}\)
Total	\(n_{\cdot 1}\)	\(n_{\cdot 0}\)	n

For example, that \(n_{11}\) represents the number of documents where both word X and word Y appear, \(n_{00}\) the number where neither appears, and \(n_{10}\) and \(n_{01}\) the cases where one appears without the other. In terms of this table, the phi coefficient is:

\[\phi=\frac{n_{11}n_{00}-n_{10}n_{01}}{\sqrt{n_{1\cdot}n_{0\cdot}n_{\cdot0}n_{\cdot1}}}\]

The phi coefficient is equivalent to the Pearson correlation, which you may have heard of elsewhere, when it is applied to binary data).

The pairwise_cor() function in widyr lets us find the phi coefficient between words based on how often they appear in the same section. Its syntax is similar to pairwise_count().

# we need to filter for at least relatively common words first
word_cors <- austen_section_words %>%
  group_by(word) %>%
  filter(n() >= 20) %>%   # try lower numbers and see what happens
  pairwise_cor(word, section, sort = TRUE)
word_cors

This output format is helpful for exploration. For example, we could find the words most correlated with a word like “pounds” using a filter operation.

word_cors %>%
  filter(item1 == "pounds")

This lets us pick particular interesting words and find the other words most associated with them (Figure @ref(fig:wordcors)).

word_cors %>%
  filter(item1 %in% c("elizabeth", "pounds", "married", "pride")) %>%
  group_by(item1) %>%
  top_n(6) %>%
  ungroup() %>%
  mutate(item2 = reorder(item2, correlation)) %>%
  ggplot(aes(item2, correlation)) +
  geom_bar(stat = "identity") +
  facet_wrap(~ item1, scales = "free") +
  coord_flip()

Selecting by correlation

Just as we used ggraph to visualize bigrams, we can use it to visualize the correlations and clusters of words that were found by the widyr package (Figure @ref(fig:wordcorsnetwork)).

set.seed(2016)
word_cors %>%
  filter(correlation > .15) %>%
  graph_from_data_frame() %>%
  ggraph(layout = "fr") +
  geom_edge_link(aes(edge_alpha = correlation), show.legend = FALSE) +
  geom_node_point(color = "lightblue", size = 5) +
  geom_node_text(aes(label = name), repel = TRUE) +
  theme_void()

Note that unlike the bigram analysis, the relationships here are symmetrical, rather than directional (there are no arrows). We can also see that while pairings of names and titles that dominated bigram pairings are common, such as “colonel/fitzwilliam”, we can also see pairings of words that appear close to each other, such as “walk” and “park”, or “dance” and “ball”.

Summary

This chapter showed how the tidy text approach is useful not only for analyzing individual words, but also for exploring the relationships and connections between words. Such relationships can involve n-grams, which enable us to see what words tend to appear after others, or co-occurences and correlations, for words that appear in proximity to each other. This chapter also demonstrated the ggraph package for visualizing both of these types of relationships as networks. These network visualizations are a flexible tool for exploring relationships, and will play an important role in the case studies in later chapters.

Chapter 5 - converting to and from non-tidy formats

Here’s the overview of the packages:

Text Analysis Flowchart

Tidying DocumentTermMatrix objects

The structure of Document Term Matrix

library(tm)

data("AssociatedPress", package = "topicmodels")
AssociatedPress

## <<DocumentTermMatrix (documents: 2246, terms: 10473)>>
## Non-/sparse entries: 302031/23220327
## Sparsity           : 99%
## Maximal term length: 18
## Weighting          : term frequency (tf)

A 99% sparse matrix is converted to a tidy table (only non-zero values are used)

library(dplyr)
library(tidytext)

ap_td <- tidy(AssociatedPress)
ap_td

## # A tibble: 302,031 × 3
##    document       term count
##       <int>      <chr> <dbl>
## 1         1     adding     1
## 2         1      adult     2
## 3         1        ago     1
## 4         1    alcohol     1
## 5         1  allegedly     1
## 6         1      allen     1
## 7         1 apparently     2
## 8         1   appeared     1
## 9         1   arrested     1
## 10        1    assault     1
## # ... with 302,021 more rows

Casting tidy text data into a matrix

ap_td %>%
  cast_dtm(document, term, count)

## <<DocumentTermMatrix (documents: 2246, terms: 10473)>>
## Non-/sparse entries: 302031/23220327
## Sparsity           : 99%
## Maximal term length: 18
## Weighting          : term frequency (tf)

Some tools simply require a sparse matrix:

library(Matrix)

# cast into a Matrix object
m <- ap_td %>%
  cast_sparse(document, term, count)

class(m)

## [1] "dgCMatrix"
## attr(,"package")
## [1] "Matrix"

dim(m)

## [1]  2246 10473

An example from Jane Austen books

library(janeaustenr)
austen_dtm <- austen_books() %>%
  unnest_tokens(word, text) %>%
  count(book, word) %>%
  cast_dtm(book, word, n)
austen_dtm

<<DocumentTermMatrix (documents: 6, terms: 14520)>>
Non-/sparse entries: 40379/46741
Sparsity           : 54%
Maximal term length: 19
Weighting          : term frequency (tf)

Please refer to Chapter 5 contents for more examples.

Chapter 6, Topic modeling

Text Analysis Flowchart with Topic Modeling

Latent Dirichlet allocation

Latent Dirichlet allocation is one of the most common algorithms for topic modeling. Without diving into the math behind the model, we can understand it as being guided by two principles.

Every document is a mixture of topics. We imagine that each document may contain words from several topics in particular proportions. For example, in a two-topic model we could say “Document 1 is 90% topic A and 10% topic B, while Document 2 is 30% topic A and 70% topic B.”
Every topic is a mixture of words. For example, we could imagine a two-topic model of American news, with one topic for “politics” and one for “entertainment.” The most common words in the politics topic might be “President”, “Congress”, and “government”, while the entertainment topic may be made up of words such as “movies”, “television”, and “actor”. Importantly, words can be shared between topics; a word like “budget” might appear in both equally.

LDA is a mathematical method for estimating both of these at the same time: finding the mixture of words that is associated with each topic, while also determining the mixture of topics that describes each document.

Please refer to Chapter 6 contents for examples.

Additional topics

please refer to Julia Silge’s blog posts

Where she deeps dive into very nice concepts:

Normalized skipgram probability -> What are the words most associated with X
singular value decomposition on sparse matrix -> find synonyms of X
Word Math King - Man + Woman = Queen
With couple of lines lots of calculations are done. check out analogy() function in second post!

Zipf’s law in DNA sequence

To be added soon..

# install
# source("https://bioconductor.org/biocLite.R")
# biocLite("BSgenome.Ecoli.NCBI.20080805")
library(BSgenome.Ecoli.NCBI.20080805)
library(biobroom)

eco = Ecoli$NC_008563
length(eco)
ecoli <- data_frame(organism="ecoli", seq=as.character(eco))
words <- substring(as.character(eco), 1:(length(seq)-8+1), 8:length(seq))


ecoli %>% 
  rowwise() %>% 
  mutate(word=split(substring(seq, 1:(length(seq)-8+1), 8:nchar(seq)),"seq")) %>% 
  select(-seq) %>% 
  unnest(word) %>% 
  count(word, sort=TRUE)

Assignment for next week

DataCamp - Introduction to Machine Learning - First two chapters

About Quiz

It will be about calculation of correlations with text analysis.

LS0tCnRpdGxlOiB8ICAgCiB8IERhdGEgQW5hbHlzaXMgYW5kIFZpc3VhbGl6YXRpb24gIAogfCBMZXNzb24gMTEgICAKIHwgVGV4dCBNaW5pbmcgLSBQYXJ0IDIgIAphdXRob3I6ICJhbHBlciB5aWxtYXoiCmRhdGU6ICJOb3ZlbWJlciAyOHRoLCAyMDE3IgpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sKLS0tCgojIEFubm91bmNlbWVudHMKCiMjIERhdGFDYW1wIHN0YXR1cwoKVG8gYmUgYW5ub3VuY2VkIHNvb24uLgoKIyMgR3JhZGUgZGlzdHJpYnV0aW9uCgpEdWUgdG8gRGF0YUNhbXAgY2FzZSwgdGhlIGNvbnRyaWJ1dGlvbiBvZiBncmFkZSBwb2ludHMgaXMgcGxhbm5lZCB0byBiZSBhcyBmb2xsb3dzICgqKnN1YmplY3QgdG8gY2hhbmdlKiopLiAKCnwgSXRlbSB8IFRvdGFsIGNvbnRyaWJ1dGlvbiB0byAxMDAgcG9pbnRzIHwKfC0tLS0tLXwtLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tfAp8IE1pZHRlcm0gfCAzMCB8CnwgRmluYWwgIHwgNDAgIHwKfCBRdWl6IHwgMTUgfAp8IERhdGFDYW1wIGFzc2lnbm1lbnRzIHwgNSB8CnwgUXVlc3Rpb24gUG9vbCB8IDUgfAp8IEF0dGVuZGFuY2UgfCA1IHwKfCBQcm9qZWN0ICgqKkJvbnVzKiopIHwgNyB8CgpBIGJvbnVzICoqUHJvamVjdCoqIGl0ZW0gaGFzIGJlZW4gYWRkZWQuIFRoZSBkZXRhaWxzIG9mIHRoZSBwcm9qZWN0IGFyZSBhcyBmb2xsb3dzOgoKKiBQdWJtZWQgYWJzdHJhY3RzIGZyb20gbXVsdGlwbGUgam91cm5hbHMgYXJlIHRvIGJlIGFuYWx5emVkLiAKKiBVc2UgYXMgbWFueSBhcyBwb3NzaWJsZSBjb25jZXB0cyBpbiB5b3VyIGFuYWx5c2lzICh0ZXh0IGFuYWx5c2lzLCBtb2RlbGxpbmcsIGV0YykKKiBWaXN1YWxpemF0aW9ucyBhbmQgZGFzaGJvYXJkcyBzaG91bGQgYmUgdXNlZC4KCgojIFRleHQgTWluaW5nLCB0aGUgVGlkeSBXYXksIFBhcnQgMgoKQmVmb3JlIHdlIHN0YXJ0LCBwbGVhc2UgbWFrZSBzdXJlIHRoZSBmb2xsb3dpbmcgbGlicmFyaWVzIGFyZSBpbnN0YWxsZWQKCmBgYHtyfQpsaWJyYXJ5KHRpZHl0ZXh0KQpsaWJyYXJ5KGphbmVhdXN0ZW5yKQpsaWJyYXJ5KHN0cmluZ3IpCmxpYnJhcnkodGlkeXZlcnNlKQpsaWJyYXJ5KGdncGxvdDIpCmxpYnJhcnkoZ2dyYXBoKQpsaWJyYXJ5KGlncmFwaCkKbGlicmFyeSh0aWR5Z3JhcGgpCmxpYnJhcnkod2lkeXIpICAgIyBPUFRJT05BTCBsaWJyYXJ5KGRldnRvb2xzKSB0aGVuIGluc3RhbGxfZ2l0aHViKCJkZ3J0d28vd2lkeXIiKQpgYGAKCkxhc3QgdGltZSwgd2UgcmVtb3ZlZCBzdG9wIHdvcmRzIGFuZCBhZGRlZCBzZW50aW1lbnQgZnJvbSAzIGRpZmZlcmVudCBzb3VyY2VzLiBXZSB3ZXJlIGFibGUgdG8gdHJhY2sgdGhlIHBvc2l0aXZlIG9yIG5lZ2F0aXZlIHNlbnRpbWVudHMgdGhyb3VnaG91dCB0aGUgY2hhcHRlcnMuIEZpbmFsbHksIHdlIGNhbGN1bGF0ZWQgbW9zdCBjb21tb24gbmVnYXRpdmUgYW5kIHBvc2l0aXZlIHdvcmRzIGluIEphbmUgQXVzdGVuJ3MgNiBib29rcy4KCk5vdywgd2UnbGwgZG8gbW9yZSBmdW4gc3R1ZmYuIEl0IHdpbGwgYmUgYSByb3VnaCByaWRlLCB3aXRoIG1hbnkgZGl2ZXJzZSB0b3BpY3MsIHNvIHBsZWFzZSBidWNrbGUgdXAuIFdlJ3JlIHN0aWxsIGZvbGxvd2luZyB0aGUgYm9vayAqVGV4dCBNaW5pbmcgd2l0aCBSKiB3aGljaCBjYW4gYmUgYWNjZXNzZWQgb25saW5lIFtoZXJlXShodHRwOi8vdGlkeXRleHRtaW5pbmcuY29tLykuIFRoZSBSIGNvZGUgb2YgdGhlIGJvb2sgaXMgYXZhaWxhYmxlIGF0IHRoaXMgW0dpdGh1YiByZXBvXShodHRwczovL2dpdGh1Yi5jb20vZGdydHdvL3RpZHktdGV4dC1taW5pbmcpLiBTb21lIHNlY3Rpb25zIHdpbGwgYmUgZnJvbSBkaWZmZXJlbnQgcmVzb3VyY2VzLCBhbmQgbmVjZXNzYXJ5IGxpbmtzIHRvIHRob3NlIHJlc291cmNlcyB3aWxsIGJlIHByb3ZpZGVkLgoKIyBDaGFwdGVyIDMgLSB3b3JkIGFuZCBkb2N1bWVudCBmcmVxdWVuY3kgLSBURi1JREYKCkluIG9yZGVyIHRvIHF1YW50aWZ5IHdoYXQgYSBkb2N1bWVudCBpcyBhYm91dCwgd2UgY2FuIGxvb2tpbmcgYXQgdGhlIHdvcmRzIHRoYXQgbWFrZSB1cCB0aGUgZG9jdW1lbnQuICpUZXJtIGZyZXF1ZW5jeSogKHRmKSwgcmVwb3J0cyBob3cgZnJlcXVlbnRseSBhIHdvcmQgb2NjdXJzIGluIGEgZG9jdW1lbnQuIEl0IGlzIHBvc3NpYmxlIHRoYXQgc29tZSBvZiB0aGVzZSB3b3JkcyBtaWdodCBiZSBtb3JlIGltcG9ydGFudCBpbiBzb21lIGRvY3VtZW50cyB0aGFuIG90aGVycy4gQSBsaXN0IG9mIHN0b3Agd29yZHMgaXMgbm90IGEgdmVyeSBzb3BoaXN0aWNhdGVkIGFwcHJvYWNoIHRvIGFkanVzdGluZyB0ZXJtIGZyZXF1ZW5jeSBmb3IgY29tbW9ubHkgdXNlZCB3b3Jkcy4KCkEgdGVybSdzICppbnZlcnNlIGRvY3VtZW50IGZyZXF1ZW5jeSogKGlkZiksIHdoaWNoIGRlY3JlYXNlcyB0aGUgd2VpZ2h0IGZvciBjb21tb25seSB1c2VkIHdvcmRzIGFuZCBpbmNyZWFzZXMgdGhlIHdlaWdodCBmb3Igd29yZHMgdGhhdCBhcmUgbm90IHVzZWQgdmVyeSBtdWNoIGluIGEgY29sbGVjdGlvbiBvZiBkb2N1bWVudHMuIFRoaXMgY2FuIGJlIGNvbWJpbmVkIHdpdGggdGVybSBmcmVxdWVuY3kgdG8gY2FsY3VsYXRlIGEgdGVybSdzICp0Zi1pZGYqICh0aGUgdHdvIHF1YW50aXRpZXMgbXVsdGlwbGllZCB0b2dldGhlciksIHRoZSBmcmVxdWVuY3kgb2YgYSB0ZXJtIGFkanVzdGVkIGZvciBob3cgcmFyZWx5IGl0IGlzIHVzZWQuIAoKPiBUaGUgc3RhdGlzdGljICoqdGYtaWRmKiogaXMgaW50ZW5kZWQgdG8gbWVhc3VyZSBob3cgaW1wb3J0YW50IGEgd29yZCBpcyB0byBhIGRvY3VtZW50IGluIGEgY29sbGVjdGlvbiAob3IgY29ycHVzKSBvZiBkb2N1bWVudHMsIGZvciBleGFtcGxlLCB0byBvbmUgbm92ZWwgaW4gYSBjb2xsZWN0aW9uIG9mIG5vdmVscyBvciB0byBvbmUgd2Vic2l0ZSBpbiBhIGNvbGxlY3Rpb24gb2Ygd2Vic2l0ZXMuCgpUaGUgaW52ZXJzZSBkb2N1bWVudCBmcmVxdWVuY3kgZm9yIGFueSBnaXZlbiB0ZXJtIGlzIGRlZmluZWQgYXMKCiQkaWRmKFx0ZXh0e3Rlcm19KSA9IFxsbntcbGVmdChcZnJhY3tuX3tcdGV4dHtkb2N1bWVudHN9fX17bl97XHRleHR7ZG9jdW1lbnRzIGNvbnRhaW5pbmcgdGVybX19fVxyaWdodCl9JCQKCkxldCdzIGNhbGN1bGF0ZSAqKnRmKiogaW4gSmFuZSBBdXN0ZW4ncyBib29rcyB3aXRoIHRpZHkgcHJpbmNpcGxlcwoKYGBge3J9CmJvb2tfd29yZHMgPC0gYXVzdGVuX2Jvb2tzKCkgJT4lCiAgdW5uZXN0X3Rva2Vucyh3b3JkLCB0ZXh0KSAlPiUKICBjb3VudChib29rLCB3b3JkLCBzb3J0ID0gVFJVRSkgCgp0b3RhbF93b3JkcyA8LSBib29rX3dvcmRzICU+JSAKICBncm91cF9ieShib29rKSAlPiUgCiAgc3VtbWFyaXplKHRvdGFsID0gc3VtKG4pKQoKYm9va193b3JkcyA8LSBsZWZ0X2pvaW4oYm9va193b3JkcywgdG90YWxfd29yZHMpCgpib29rX3dvcmRzCmBgYAoKSW4gYGJvb2tfd29yZHNgLCBgbmAgaXMgdGhlIG51bWJlciBvZiB0aW1lcyB0aGF0IHdvcmQgaXMgdXNlZCBpbiB0aGF0IGJvb2sgYW5kIGB0b3RhbGAgaXMgdGhlIHRvdGFsIHdvcmRzIGluIHRoYXQgYm9vay4gVGVybSBmcmVxdWVuY3kgaXMgdGhlIG51bWJlciBvZiB0aW1lcyBhIHdvcmQgYXBwZWFycyBpbiBhIG5vdmVsIGRpdmlkZWQgYnkgdGhlIHRvdGFsIG51bWJlciBvZiB0ZXJtcyAod29yZHMpIGluIHRoYXQgbm92ZWwuCgpCZWxvdyBpcyB0aGUgZGlzdHJpYnV0aW9uIG9mIAoKYGBge3IgcGxvdHRmfQpnZ3Bsb3QoYm9va193b3JkcywgYWVzKG4vdG90YWwsIGZpbGwgPSBib29rKSkgKwogIGdlb21faGlzdG9ncmFtKHNob3cubGVnZW5kID0gRkFMU0UpICsKICB4bGltKE5BLCAwLjAwMDkpICsKICBmYWNldF93cmFwKH5ib29rLCBuY29sID0gMiwgc2NhbGVzID0gImZyZWVfeSIpCmBgYAoKPiBaaXBmJ3MgbGF3IHN0YXRlcyB0aGF0IHRoZSBmcmVxdWVuY3kgdGhhdCBhIHdvcmQgYXBwZWFycyBpcyBpbnZlcnNlbHkgcHJvcG9ydGlvbmFsIHRvIGl0cyByYW5rLgoKWmlwZidzIGxhdyBjYW4gYmUgb2JzZXJ2ZWQgaW4gbmF0dXJhbCBsYW5ndWFnZXMuIENhbiB3ZSBvYnNlcnZlIGl0IGluIEROQSBzZXF1ZW5jZT8KCmBgYHtyIGZyZXFfYnlfcmFua30KZnJlcV9ieV9yYW5rIDwtIGJvb2tfd29yZHMgJT4lIAogIGdyb3VwX2J5KGJvb2spICU+JSAKICBtdXRhdGUocmFuayA9IHJvd19udW1iZXIoKSwgCiAgICAgICAgIHRmID0gbi90b3RhbCkKCmZyZXFfYnlfcmFuawpgYGAKClRoZSBgcmFua2AgY29sdW1uIGhlcmUgdGVsbHMgdXMgdGhlIHJhbmsgb2YgZWFjaCB3b3JkIHdpdGhpbiB0aGUgZnJlcXVlbmN5IHRhYmxlOyB0aGUgdGFibGUgd2FzIGFscmVhZHkgb3JkZXJlZCBieSBgbmAgc28gd2UgY291bGQgdXNlIGByb3dfbnVtYmVyKClgIHRvIGZpbmQgdGhlIHJhbmsuCgpgYGB7ciB6aXBmLCBmaWcud2lkdGg9NiwgZmlnLmhlaWdodD01fQpmcmVxX2J5X3JhbmsgJT4lIAogIGdncGxvdChhZXMocmFuaywgdGYsIGNvbG9yID0gYm9vaykpICsgCiAgZ2VvbV9saW5lKHNpemUgPSAxLjEsIGFscGhhID0gMC44LCBzaG93LmxlZ2VuZCA9IEZBTFNFKSArIAogIHNjYWxlX3hfbG9nMTAoKSArCiAgc2NhbGVfeV9sb2cxMCgpCmBgYAoKTm90aWNlIHRoYXQgZmlndXJlIGFib3ZlIGlzIGluIGxvZy1sb2cgY29vcmRpbmF0ZXMuIFdlIHNlZSB0aGF0IGFsbCBzaXggb2YgSmFuZSBBdXN0ZW4ncyBub3ZlbHMgYXJlIHNpbWlsYXIgdG8gZWFjaCBvdGhlciwgYW5kIHRoYXQgdGhlIHJlbGF0aW9uc2hpcCBiZXR3ZWVuIHJhbmsgYW5kIGZyZXF1ZW5jeSBkb2VzIGhhdmUgbmVnYXRpdmUgc2xvcGUuIEl0IGlzIG5vdCBxdWl0ZSBjb25zdGFudCwgdGhvdWdoOyBwZXJoYXBzIHdlIGNvdWxkIHZpZXcgdGhpcyBhcyBhIGJyb2tlbiBbcG93ZXIgbGF3XShodHRwczovL2VuLndpa2lwZWRpYS5vcmcvd2lraS9Qb3dlcl9sYXcpIHdpdGgsIHNheSwgdGhyZWUgc2VjdGlvbnMuIAoKIyMgVGhlIGBiaW5kX3RmX2lkZmAgZnVuY3Rpb24KClRoZSBpZGVhIG9mIHRmLWlkZiBpcyB0byBmaW5kIHRoZSBpbXBvcnRhbnQgd29yZHMgZm9yIHRoZSBjb250ZW50IG9mIGVhY2ggZG9jdW1lbnQgYnkgZGVjcmVhc2luZyB0aGUgd2VpZ2h0IGZvciBjb21tb25seSB1c2VkIHdvcmRzIGFuZCBpbmNyZWFzaW5nIHRoZSB3ZWlnaHQgZm9yIHdvcmRzIHRoYXQgYXJlIG5vdCB1c2VkIHZlcnkgbXVjaCBpbiBhIGNvbGxlY3Rpb24gb3IgY29ycHVzIG9mIGRvY3VtZW50cywgaW4gdGhpcyBjYXNlLCB0aGUgZ3JvdXAgb2YgSmFuZSBBdXN0ZW4ncyBub3ZlbHMgYXMgYSB3aG9sZS4gQ2FsY3VsYXRpbmcgdGYtaWRmIGF0dGVtcHRzIHRvIGZpbmQgdGhlIHdvcmRzIHRoYXQgYXJlIGltcG9ydGFudCAoaS5lLiwgY29tbW9uKSBpbiBhIHRleHQsIGJ1dCBub3QgKnRvbyogY29tbW9uLiBMZXQncyBkbyB0aGF0IG5vdy4KClRoZSBgYmluZF90Zl9pZGZgIGZ1bmN0aW9uIGluIHRoZSB0aWR5dGV4dCBwYWNrYWdlIHRha2VzIGEgdGlkeSB0ZXh0IGRhdGFzZXQgYXMgaW5wdXQgd2l0aCBvbmUgcm93IHBlciB0b2tlbiAodGVybSksIHBlciBkb2N1bWVudC4gT25lIGNvbHVtbiAoYHdvcmRgIGhlcmUpIGNvbnRhaW5zIHRoZSB0ZXJtcy90b2tlbnMsIG9uZSBjb2x1bW4gY29udGFpbnMgdGhlIGRvY3VtZW50cyAoYGJvb2tgIGluIHRoaXMgY2FzZSksIGFuZCB0aGUgbGFzdCBuZWNlc3NhcnkgY29sdW1uIGNvbnRhaW5zIHRoZSBjb3VudHMsIGhvdyBtYW55IHRpbWVzIGVhY2ggZG9jdW1lbnQgY29udGFpbnMgZWFjaCB0ZXJtIChgbmAgaW4gdGhpcyBleGFtcGxlKS4gV2UgY2FsY3VsYXRlZCBhIGB0b3RhbGAgZm9yIGVhY2ggYm9vayBmb3Igb3VyIGV4cGxvcmF0aW9ucyBpbiBwcmV2aW91cyBzZWN0aW9ucywgYnV0IGl0IGlzIG5vdCBuZWNlc3NhcnkgZm9yIHRoZSBgYmluZF90Zl9pZGZgIGZ1bmN0aW9uOyB0aGUgdGFibGUgb25seSBuZWVkcyB0byBjb250YWluIGFsbCB0aGUgd29yZHMgaW4gZWFjaCBkb2N1bWVudC4KCmBgYHtyIHRmX2lkZn0KYm9va193b3JkcyA8LSBib29rX3dvcmRzICU+JQogIGJpbmRfdGZfaWRmKHdvcmQsIGJvb2ssIG4pCmJvb2tfd29yZHMKYGBgCgpDYWxjdWxhdGUgdGYgYW5kIGlkZiBmcm9tIHNjcmF0Y2gKCmBgYHtyfQphdXN0ZW5fYm9va3MoKSAlPiUKICB1bm5lc3RfdG9rZW5zKHdvcmQsIHRleHQpICU+JQogIGNvdW50KGJvb2ssIHdvcmQsIHNvcnQgPSBUUlVFKSAlPiUgCiAgYmluZF90Zl9pZGYod29yZCxib29rLG4pCmBgYAoKTm90aWNlIHRoYXQgaWRmIGFuZCB0aHVzIHRmLWlkZiBhcmUgemVybyBmb3IgdGhlc2UgZXh0cmVtZWx5IGNvbW1vbiB3b3Jkcy4gVGhlc2UgYXJlIGFsbCB3b3JkcyB0aGF0IGFwcGVhciBpbiBhbGwgc2l4IG9mIEphbmUgQXVzdGVuJ3Mgbm92ZWxzLCBzbyB0aGUgaWRmIHRlcm0gKHdoaWNoIHdpbGwgdGhlbiBiZSB0aGUgbmF0dXJhbCBsb2cgb2YgMSkgaXMgemVyby4gVGhlIGludmVyc2UgZG9jdW1lbnQgZnJlcXVlbmN5IChhbmQgdGh1cyB0Zi1pZGYpIGlzIHZlcnkgbG93IChuZWFyIHplcm8pIGZvciB3b3JkcyB0aGF0IG9jY3VyIGluIG1hbnkgb2YgdGhlIGRvY3VtZW50cyBpbiBhIGNvbGxlY3Rpb247IHRoaXMgaXMgaG93IHRoaXMgYXBwcm9hY2ggZGVjcmVhc2VzIHRoZSB3ZWlnaHQgZm9yIGNvbW1vbiB3b3Jkcy4gVGhlIGludmVyc2UgZG9jdW1lbnQgZnJlcXVlbmN5IHdpbGwgYmUgYSBoaWdoZXIgbnVtYmVyIGZvciB3b3JkcyB0aGF0IG9jY3VyIGluIGZld2VyIG9mIHRoZSBkb2N1bWVudHMgaW4gdGhlIGNvbGxlY3Rpb24uIAoKTGV0J3MgbG9vayBhdCB0ZXJtcyB3aXRoIGhpZ2ggdGYtaWRmIGluIEphbmUgQXVzdGVuJ3Mgd29ya3MuCgpgYGB7ciBkZXNjX2lkZn0KYm9va193b3JkcyAlPiUKICBzZWxlY3QoLXRvdGFsKSAlPiUKICBhcnJhbmdlKGRlc2ModGZfaWRmKSkKYGBgCgpIZXJlIHdlIHNlZSBhbGwgcHJvcGVyIG5vdW5zLCBuYW1lcyB0aGF0IGFyZSBpbiBmYWN0IGltcG9ydGFudCBpbiB0aGVzZSBub3ZlbHMuIE5vbmUgb2YgdGhlbSBvY2N1ciBpbiBhbGwgb2Ygbm92ZWxzLCBhbmQgdGhleSBhcmUgaW1wb3J0YW50LCBjaGFyYWN0ZXJpc3RpYyB3b3JkcyBmb3IgZWFjaCB0ZXh0IHdpdGhpbiB0aGUgY29ycHVzIG9mIEphbmUgQXVzdGVuJ3Mgbm92ZWxzLiAKCkxldCdzIGxvb2sgYXQgYSB2aXN1YWxpemF0aW9uIGZvciB0aGVzZSBoaWdoIHRmLWlkZiB3b3JkcyAocGxlYXNlIGZpeCB0aGUgY29kZSBiZWxvdyBmb3Igc29ydGVkIHZpZXcgYW5kIHBsZWFzZSByZWZlciB0byBbc3RhY2tvdmVyZmxvdyBhbnN3ZXJdKGh0dHBzOi8vc3RhY2tvdmVyZmxvdy5jb20vcXVlc3Rpb25zLzI2NDY5NjEyL2hvdy1kby1pLXNldC1mYWN0b3ItbGV2ZWxzLXRvLXRoZS1vcmRlci10aGV5LWFwcGVhci1pbi1hLWRhdGEtZnJhbWUpIGFib3V0IG9yZGVyaW5nIHRoZSB3b3JkcykKCmBgYHtyIHBsb3RzZXBhcmF0ZSwgZmlnLmhlaWdodD0xMCwgZmlnLndpZHRoPTl9CmJvb2tfd29yZHMgJT4lCiAgYXJyYW5nZShkZXNjKHRmX2lkZikpICU+JQojICBtdXRhdGUod29yZCA9IGZhY3Rvcih3b3JkLCBsZXZlbHMgPSByZXYodW5pcXVlKHdvcmQpKSkpICU+JQogIG11dGF0ZSh3b3JkID0gcmVvcmRlcih3b3JkLG4pKSAlPiUgIAogIGdyb3VwX2J5KGJvb2spICU+JSAKICB0b3BfbigxNSkgJT4lIAogIHVuZ3JvdXAgJT4lCiAgZ2dwbG90KGFlcyh3b3JkLCB0Zl9pZGYsIGZpbGwgPSBib29rKSkgKwogIGdlb21fY29sKHNob3cubGVnZW5kID0gRkFMU0UpICsKICBsYWJzKHggPSBOVUxMLCB5ID0gInRmLWlkZiIpICsKICBmYWNldF93cmFwKH5ib29rLCBuY29sID0gMiwgc2NhbGVzID0gImZyZWUiKSArCiAgY29vcmRfZmxpcCgpCmBgYAoKTGV0J3MgZXh0cmFjdCBzbWFsbCBwb3J0aW9uIG9mIHRoZSB0YWJsZSBpbiBvcmRlciB0byB1bmRlcnN0YW5kIHRoZSBvcmRlcmluZwoKYGBge3J9CiMgVE9ETyBhIHNtYWxsIGRhdGEgZnJhbWUgYXMgZXhhbXBsZQoKYm9va193b3JkcyAlPiUKICBhcnJhbmdlKGRlc2ModGZfaWRmKSkgJT4lIAogIGZpbHRlcih3b3JkICVpbiUgYygiZWxpemFiZXRoIiwibGl6enkiLCJmYW5ueSIsInRob21hcyIsImJlcnRyYW0iLCJlbW1hIiwid2VzdG9uIikpICU+JSAKIyAgbXV0YXRlKHdvcmQgPSBmYWN0b3Iod29yZCwgbGV2ZWxzID0gcmV2KHVuaXF1ZSh3b3JkKSkpKSAlPiUgCiBtdXRhdGUod29yZD0gcmVvcmRlcih3b3JkLHRmX2lkZikpICAlPiUgc2VsZWN0KHdvcmQsdGZfaWRmKSAtPiB0ZXN0CmBgYAoKU3RpbGwgYWxsIHByb3BlciBub3VucyBpbiBGaWd1cmUgXEByZWYoZmlnOnBsb3RzZXBhcmF0ZSkhIFRoZXNlIHdvcmRzIGFyZSwgYXMgbWVhc3VyZWQgYnkgdGYtaWRmLCB0aGUgbW9zdCBpbXBvcnRhbnQgdG8gZWFjaCBub3ZlbCBhbmQgbW9zdCByZWFkZXJzIHdvdWxkIGxpa2VseSBhZ3JlZS4gV2hhdCBtZWFzdXJpbmcgdGYtaWRmIGhhcyBkb25lIGhlcmUgaXMgc2hvdyB1cyB0aGF0IEphbmUgQXVzdGVuIHVzZWQgc2ltaWxhciBsYW5ndWFnZSBhY3Jvc3MgaGVyIHNpeCBub3ZlbHMsIGFuZCB3aGF0IGRpc3Rpbmd1aXNoZXMgb25lIG5vdmVsIGZyb20gdGhlIHJlc3Qgd2l0aGluIHRoZSBjb2xsZWN0aW9uIG9mIGhlciB3b3JrcyBhcmUgdGhlIHByb3BlciBub3VucywgdGhlIG5hbWVzIG9mIHBlb3BsZSBhbmQgcGxhY2VzLiBUaGlzIGlzIHRoZSBwb2ludCBvZiB0Zi1pZGY7IGl0IGlkZW50aWZpZXMgd29yZHMgdGhhdCBhcmUgaW1wb3J0YW50IHRvIG9uZSBkb2N1bWVudCB3aXRoaW4gYSBjb2xsZWN0aW9uIG9mIGRvY3VtZW50cy4KCkluIHN1bW1hcnksIHVzaW5nIHRlcm0gZnJlcXVlbmN5IGFuZCBpbnZlcnNlIGRvY3VtZW50IGZyZXF1ZW5jeSBhbGxvd3MgdXMgdG8gZmluZCB3b3JkcyB0aGF0IGFyZSBjaGFyYWN0ZXJpc3RpYyBmb3Igb25lIGRvY3VtZW50IHdpdGhpbiBhIGNvbGxlY3Rpb24gb2YgZG9jdW1lbnRzLCB3aGV0aGVyIHRoYXQgZG9jdW1lbnQgaXMgYSBub3ZlbCBvciBbcGh5c2ljcyB0ZXh0XShodHRwOi8vdGlkeXRleHRtaW5pbmcuY29tL3RmaWRmLmh0bWwjYS1jb3JwdXMtb2YtcGh5c2ljcy10ZXh0cykgb3Igd2VicGFnZS4KCiMgQ2hhcHRlciA0IC0gUmVsYXRpb25zaGlwIGJldHdlZW4gd29yZHMKClNvIGZhciB3ZSd2ZSBjb25zaWRlcmVkIHdvcmRzIGFzIGluZGl2aWR1YWwgdW5pdHMsIGFuZCBjb25zaWRlcmVkIHRoZWlyIHJlbGF0aW9uc2hpcHMgdG8gc2VudGltZW50cyBvciB0byBkb2N1bWVudHMuIEhvd2V2ZXIsIG1hbnkgaW50ZXJlc3RpbmcgdGV4dCBhbmFseXNlcyBhcmUgYmFzZWQgb24gdGhlIHJlbGF0aW9uc2hpcHMgYmV0d2VlbiB3b3Jkcywgd2hldGhlciBleGFtaW5pbmcgd2hpY2ggd29yZHMgdGVuZCB0byBmb2xsb3cgb3RoZXJzIGltbWVkaWF0ZWx5LCBvciB0aGF0IHRlbmQgdG8gY28tb2NjdXIgd2l0aGluIHRoZSBzYW1lIGRvY3VtZW50cy4KCkluIHRoaXMgY2hhcHRlciwgd2UnbGwgZXhwbG9yZSBzb21lIG9mIHRoZSBtZXRob2RzIHRpZHl0ZXh0IG9mZmVycyBmb3IgY2FsY3VsYXRpbmcgYW5kIHZpc3VhbGl6aW5nIHJlbGF0aW9uc2hpcHMgYmV0d2VlbiB3b3JkcyBpbiB5b3VyIHRleHQgZGF0YXNldC4gVGhpcyBpbmNsdWRlcyB0aGUgYHRva2VuID0gIm5ncmFtcyJgIGFyZ3VtZW50LCB3aGljaCB0b2tlbml6ZXMgYnkgcGFpcnMgb2YgYWRqYWNlbnQgd29yZHMgcmF0aGVyIHRoYW4gYnkgaW5kaXZpZHVhbCBvbmVzLiBXZSdsbCBhbHNvIGludHJvZHVjZSB0d28gbmV3IHBhY2thZ2VzOiBbZ2dyYXBoXShodHRwczovL2dpdGh1Yi5jb20vdGhvbWFzcDg1L2dncmFwaCksIHdoaWNoIGV4dGVuZHMgZ2dwbG90MiB0byBjb25zdHJ1Y3QgbmV0d29yayBwbG90cywgYW5kIFt3aWR5cl0oaHR0cHM6Ly9naXRodWIuY29tL2RncnR3by93aWR5ciksIHdoaWNoIGNhbGN1bGF0ZXMgcGFpcndpc2UgY29ycmVsYXRpb25zIGFuZCBkaXN0YW5jZXMgd2l0aGluIGEgdGlkeSBkYXRhIGZyYW1lLiBUb2dldGhlciB0aGVzZSBleHBhbmQgb3VyIHRvb2xib3ggZm9yIGV4cGxvcmluZyB0ZXh0IHdpdGhpbiB0aGUgdGlkeSBkYXRhIGZyYW1ld29yay4KCiMjIFRva2VuaXppbmcgYnkgbi1ncmFtCgpXZSd2ZSBiZWVuIHVzaW5nIHRoZSBgdW5uZXN0X3Rva2Vuc2AgZnVuY3Rpb24gdG8gdG9rZW5pemUgYnkgd29yZCwgb3Igc29tZXRpbWVzIGJ5IHNlbnRlbmNlLCB3aGljaCBpcyB1c2VmdWwgZm9yIHRoZSBraW5kcyBvZiBzZW50aW1lbnQgYW5kIGZyZXF1ZW5jeSBhbmFseXNlcyB3ZSd2ZSBiZWVuIGRvaW5nIHNvIGZhci4gQnV0IHdlIGNhbiBhbHNvIHVzZSB0aGUgZnVuY3Rpb24gdG8gdG9rZW5pemUgaW50byBjb25zZWN1dGl2ZSBzZXF1ZW5jZXMgb2Ygd29yZHMsIGNhbGxlZCAqKm4tZ3JhbXMqKi4gQnkgc2VlaW5nIGhvdyBvZnRlbiB3b3JkIFggaXMgZm9sbG93ZWQgYnkgd29yZCBZLCB3ZSBjYW4gdGhlbiBidWlsZCBhIG1vZGVsIG9mIHRoZSByZWxhdGlvbnNoaXBzIGJldHdlZW4gdGhlbS4KCldlIGRvIHRoaXMgYnkgYWRkaW5nIHRoZSBgdG9rZW4gPSAibmdyYW1zImAgb3B0aW9uIHRvIGB1bm5lc3RfdG9rZW5zKClgLCBhbmQgc2V0dGluZyBgbmAgdG8gdGhlIG51bWJlciBvZiB3b3JkcyB3ZSB3aXNoIHRvIGNhcHR1cmUgaW4gZWFjaCBuLWdyYW0uIFdoZW4gd2Ugc2V0IGBuYCB0byAyLCB3ZSBhcmUgZXhhbWluaW5nIHBhaXJzIG9mIHR3byBjb25zZWN1dGl2ZSB3b3Jkcywgb2Z0ZW4gY2FsbGVkICJiaWdyYW1zIjoKCmBgYHtyIGF1c3Rlbl9iaWdyYW1zfQoKYXVzdGVuX2JpZ3JhbXMgPC0gYXVzdGVuX2Jvb2tzKCkgJT4lCiAgdW5uZXN0X3Rva2VucyhiaWdyYW0sIHRleHQsIHRva2VuID0gIm5ncmFtcyIsIG4gPSAyKQoKYXVzdGVuX2JpZ3JhbXMKYGBgCgpUaGlzIGRhdGEgc3RydWN0dXJlIGlzIHN0aWxsIGEgdmFyaWF0aW9uIG9mIHRoZSB0aWR5IHRleHQgZm9ybWF0LiBJdCBpcyBzdHJ1Y3R1cmVkIGFzIG9uZS10b2tlbi1wZXItcm93ICh3aXRoIGV4dHJhIG1ldGFkYXRhLCBzdWNoIGFzIGBib29rYCwgc3RpbGwgcHJlc2VydmVkKSwgYnV0IGVhY2ggdG9rZW4gbm93IHJlcHJlc2VudHMgYSBiaWdyYW0uCgo+IE5vdGljZSB0aGF0IHRoZXNlIGJpZ3JhbXMgb3ZlcmxhcDogInNlbnNlIGFuZCIgaXMgb25lIHRva2VuLCB3aGlsZSAiYW5kIHNlbnNpYmlsaXR5IiBpcyBhbm90aGVyLgoKIyMjIENvdW50aW5nIGFuZCBmaWx0ZXJpbmcgbi1ncmFtcwoKT3VyIHVzdWFsIHRpZHkgdG9vbHMgYXBwbHkgZXF1YWxseSB3ZWxsIHRvIG4tZ3JhbSBhbmFseXNpcy4gV2UgY2FuIGV4YW1pbmUgdGhlIG1vc3QgY29tbW9uIGJpZ3JhbXMgdXNpbmcgZHBseXIncyBgY291bnQoKWA6CgpgYGB7cn0KYXVzdGVuX2JpZ3JhbXMgJT4lCiAgY291bnQoYmlncmFtLCBzb3J0ID0gVFJVRSkKYGBgCgpBcyBvbmUgbWlnaHQgZXhwZWN0LCBhIGxvdCBvZiB0aGUgbW9zdCBjb21tb24gYmlncmFtcyBhcmUgcGFpcnMgb2YgY29tbW9uICh1bmludGVyZXN0aW5nKSB3b3Jkcywgc3VjaCBhcyBgb2YgdGhlYCBhbmQgYHRvIGJlYDogd2hhdCB3ZSBjYWxsICJzdG9wLXdvcmRzIi4gVGhpcyBpcyBhIHVzZWZ1bCB0aW1lIHRvIHVzZSB0aWR5cidzIGBzZXBhcmF0ZSgpYCwgd2hpY2ggc3BsaXRzIGEgY29sdW1uIGludG8gbXVsdGlwbGUgYmFzZWQgb24gYSBkZWxpbWl0ZXIuIFRoaXMgbGV0cyB1cyBzZXBhcmF0ZSBpdCBpbnRvIHR3byBjb2x1bW5zLCAid29yZDEiIGFuZCAid29yZDIiLCBhdCB3aGljaCBwb2ludCB3ZSBjYW4gcmVtb3ZlIGNhc2VzIHdoZXJlIGVpdGhlciBpcyBhIHN0b3Atd29yZC4KCmBgYHtyIGJpZ3JhbV9jb3VudHN9CgpiaWdyYW1zX3NlcGFyYXRlZCA8LSBhdXN0ZW5fYmlncmFtcyAlPiUKICBzZXBhcmF0ZShiaWdyYW0sIGMoIndvcmQxIiwgIndvcmQyIiksIHNlcCA9ICIgIikKCiMgYmlncmFtc19zZXBhcmF0ZWQgJT4lIAojICAgY291bnQod29yZDEsd29yZDIsc29ydD1UUlVFKQoKYmlncmFtc19maWx0ZXJlZCA8LSBiaWdyYW1zX3NlcGFyYXRlZCAlPiUKICBmaWx0ZXIoIXdvcmQxICVpbiUgc3RvcF93b3JkcyR3b3JkKSAlPiUKICBmaWx0ZXIoIXdvcmQyICVpbiUgc3RvcF93b3JkcyR3b3JkKQoKIyBPUgojIGJpZ3JhbXNfc2VwYXJhdGVkICU+JQojICAgYW50aV9qb2luKHN0b3Bfd29yZHMsIGJ5PWMoIndvcmQxIj0id29yZCIpKSAlPiUgCiMgICBhbnRpX2pvaW4oc3RvcF93b3JkcywgYnk9Yygid29yZDIiPSJ3b3JkIikpIAoKIyBuZXcgYmlncmFtIGNvdW50czoKYmlncmFtX2NvdW50cyA8LSBiaWdyYW1zX2ZpbHRlcmVkICU+JSAKICBjb3VudCh3b3JkMSwgd29yZDIsIHNvcnQgPSBUUlVFKQoKYmlncmFtX2NvdW50cwpgYGAKCldlIGNhbiBzZWUgdGhhdCBuYW1lcyAod2hldGhlciBmaXJzdCBhbmQgbGFzdCBvciB3aXRoIGEgc2FsdXRhdGlvbikgYXJlIHRoZSBtb3N0IGNvbW1vbiBwYWlycyBpbiBKYW5lIEF1c3RlbiBib29rcy4KCkluIG90aGVyIGFuYWx5c2VzLCB3ZSBtYXkgd2FudCB0byB3b3JrIHdpdGggdGhlIHJlY29tYmluZWQgd29yZHMuIHRpZHlyJ3MgYHVuaXRlKClgIGZ1bmN0aW9uIGlzIHRoZSBpbnZlcnNlIG9mIGBzZXBhcmF0ZSgpYCwgYW5kIGxldHMgdXMgcmVjb21iaW5lIHRoZSBjb2x1bW5zIGludG8gb25lLiBUaHVzLCAic2VwYXJhdGUvZmlsdGVyL2NvdW50L3VuaXRlIiBsZXQgdXMgZmluZCB0aGUgbW9zdCBjb21tb24gYmlncmFtcyBub3QgY29udGFpbmluZyBzdG9wLXdvcmRzLgoKYGBge3IgYmlncmFtc191bml0ZWR9CmJpZ3JhbXNfdW5pdGVkIDwtIGJpZ3JhbXNfZmlsdGVyZWQgJT4lCiAgdW5pdGUoYmlncmFtLCB3b3JkMSwgd29yZDIsIHNlcCA9ICIgIikKCmJpZ3JhbXNfdW5pdGVkCmBgYAoKSW4gb3RoZXIgYW5hbHlzZXMgeW91IG1heSBiZSBpbnRlcmVzdGVkIGluIHRoZSBtb3N0IGNvbW1vbiB0cmlncmFtcywgd2hpY2ggYXJlIGNvbnNlY3V0aXZlIHNlcXVlbmNlcyBvZiAzIHdvcmRzLiBXZSBjYW4gZmluZCB0aGlzIGJ5IHNldHRpbmcgYG4gPSAzYDoKCmBgYHtyfQphdXN0ZW5fYm9va3MoKSAlPiUKICB1bm5lc3RfdG9rZW5zKHRyaWdyYW0sIHRleHQsIHRva2VuID0gIm5ncmFtcyIsIG4gPSAzKSAlPiUKICBzZXBhcmF0ZSh0cmlncmFtLCBjKCJ3b3JkMSIsICJ3b3JkMiIsICJ3b3JkMyIpLCBzZXAgPSAiICIpICU+JQogIGZpbHRlcighd29yZDEgJWluJSBzdG9wX3dvcmRzJHdvcmQsCiAgICAgICAgICF3b3JkMiAlaW4lIHN0b3Bfd29yZHMkd29yZCwKICAgICAgICAgIXdvcmQzICVpbiUgc3RvcF93b3JkcyR3b3JkKSAlPiUKICBjb3VudCh3b3JkMSwgd29yZDIsIHdvcmQzLCBzb3J0ID0gVFJVRSkKYGBgCgojIyMgQW5hbHl6aW5nIGJpZ3JhbXMKClRoaXMgb25lLWJpZ3JhbS1wZXItcm93IGZvcm1hdCBpcyBoZWxwZnVsIGZvciBleHBsb3JhdG9yeSBhbmFseXNlcyBvZiB0aGUgdGV4dC4gQXMgYSBzaW1wbGUgZXhhbXBsZSwgd2UgbWlnaHQgYmUgaW50ZXJlc3RlZCBpbiB0aGUgbW9zdCBjb21tb24gInN0cmVldHMiIG1lbnRpb25lZCBpbiBlYWNoIGJvb2s6CgpgYGB7ciBiaWdyYW1zX2ZpbHRlcmVkX3N0cmVldH0KYmlncmFtc19maWx0ZXJlZCAlPiUKICBmaWx0ZXIod29yZDIgPT0gInN0cmVldCIpICU+JQogIGNvdW50KGJvb2ssIHdvcmQxLCBzb3J0ID0gVFJVRSkKYGBgCgpBIGJpZ3JhbSBjYW4gYWxzbyBiZSB0cmVhdGVkIGFzIGEgdGVybSBpbiBhIGRvY3VtZW50IGluIHRoZSBzYW1lIHdheSB0aGF0IHdlIHRyZWF0ZWQgaW5kaXZpZHVhbCB3b3Jkcy4gRm9yIGV4YW1wbGUsIHdlIGNhbiBsb29rIGF0IHRoZSB0Zi1pZGYgb2YgYmlncmFtcyBhY3Jvc3MgQXVzdGVuIG5vdmVscy4gVGhlc2UgdGYtaWRmIHZhbHVlcyBjYW4gYmUgdmlzdWFsaXplZCB3aXRoaW4gZWFjaCBib29rLCBqdXN0IGFzIHdlIGRpZCBmb3Igd29yZHMuCgpgYGB7ciBiaWdyYW1fdGZfaWRmfQpiaWdyYW1zX3VuaXRlZCA8LSBiaWdyYW1zX2ZpbHRlcmVkICU+JQogIHVuaXRlKGJpZ3JhbSwgd29yZDEsIHdvcmQyLCBzZXAgPSAiICIpCgpiaWdyYW1fdGZfaWRmIDwtIGJpZ3JhbXNfdW5pdGVkICU+JQogIGNvdW50KGJvb2ssIGJpZ3JhbSkgJT4lCiAgYmluZF90Zl9pZGYoYmlncmFtLCBib29rLCBuKSAlPiUKICBhcnJhbmdlKGRlc2ModGZfaWRmKSkKCmJpZ3JhbV90Zl9pZGYKYGBgCgpgYGB7ciBiaWdyYW10ZmlkZiwgZWNobyA9IEZBTFNFLCBmaWcud2lkdGg9OSwgZmlnLmhlaWdodD05fQoKYmlncmFtX3RmX2lkZiAlPiUKICBhcnJhbmdlKGRlc2ModGZfaWRmKSkgJT4lCiAgZ3JvdXBfYnkoYm9vaykgJT4lCiAgdG9wX24oMTIsIHRmX2lkZikgJT4lCiAgdW5ncm91cCgpICU+JQogIG11dGF0ZShiaWdyYW0gPSByZW9yZGVyKGJpZ3JhbSwgdGZfaWRmKSkgJT4lCiAgZ2dwbG90KGFlcyhiaWdyYW0sIHRmX2lkZiwgZmlsbCA9IGJvb2spKSArCiAgZ2VvbV9jb2woc2hvdy5sZWdlbmQgPSBGQUxTRSkgKwogIGZhY2V0X3dyYXAofiBib29rLCBuY29sID0gMiwgc2NhbGVzID0gImZyZWUiKSArCiAgY29vcmRfZmxpcCgpICsKICBsYWJzKHkgPSAidGYtaWRmIG9mIGJpZ3JhbSB0byBub3ZlbCIsCiAgICAgICB4ID0gIiIpCmBgYAoKTXVjaCBhcyB3ZSBkaXNjb3ZlcmVkIGluIENoYXB0ZXIgXEByZWYodGZpZGYpLCB0aGUgdW5pdHMgdGhhdCBkaXN0aW5ndWlzaCBlYWNoIEF1c3RlbiBib29rIGFyZSBhbG1vc3QgZXhjbHVzaXZlbHkgbmFtZXMuIFdlIGFsc28gbm90aWNlIHNvbWUgcGFpcmluZ3Mgb2YgYSBjb21tb24gdmVyYiBhbmQgYSBuYW1lLCBzdWNoIGFzICJyZXBsaWVkIGVsaXphYmV0aCIgaW4gUHJpZGUgJiBQcmVqdWRpY2UsIG9yICJjcmllZCBlbW1hIiBpbiBFbW1hLgoKVGhlcmUgYXJlIGFkdmFudGFnZXMgYW5kIGRpc2FkdmFudGFnZXMgdG8gZXhhbWluaW5nIHRoZSB0Zi1pZGYgb2YgYmlncmFtcyByYXRoZXIgdGhhbiBpbmRpdmlkdWFsIHdvcmRzLiBQYWlycyBvZiBjb25zZWN1dGl2ZSB3b3JkcyBtaWdodCBjYXB0dXJlIHN0cnVjdHVyZSB0aGF0IGlzbid0IHByZXNlbnQgd2hlbiBvbmUgaXMganVzdCBjb3VudGluZyBzaW5nbGUgd29yZHMsIGFuZCBtYXkgcHJvdmlkZSBjb250ZXh0IHRoYXQgbWFrZXMgdG9rZW5zIG1vcmUgdW5kZXJzdGFuZGFibGUgKGZvciBleGFtcGxlLCAicHVsdGVuZXkgc3RyZWV0IiwgaW4gTm9ydGhhbmdlciBBYmJleSwgaXMgbW9yZSBpbmZvcm1hdGl2ZSB0aGFuICJwdWx0ZW5leSIpLiBIb3dldmVyLCB0aGUgcGVyLWJpZ3JhbSBjb3VudHMgYXJlIGFsc28gKnNwYXJzZXIqOiBhIHR5cGljYWwgdHdvLXdvcmQgcGFpciBpcyByYXJlciB0aGFuIGVpdGhlciBvZiBpdHMgY29tcG9uZW50IHdvcmRzLiBUaHVzLCBiaWdyYW1zIGNhbiBiZSBlc3BlY2lhbGx5IHVzZWZ1bCB3aGVuIHlvdSBoYXZlIGEgdmVyeSBsYXJnZSB0ZXh0IGRhdGFzZXQuCgojIyMgVXNpbmcgYmlncmFtcyB0byBwcm92aWRlIGNvbnRleHQgaW4gc2VudGltZW50IGFuYWx5c2lzCgpPdXIgc2VudGltZW50IGFuYWx5c2lzIGFwcHJvYWNoIGluIENoYXB0ZXIgXEByZWYoc2VudGltZW50KSBzaW1wbHkgY291bnRlZCB0aGUgYXBwZWFyYW5jZSBvZiBwb3NpdGl2ZSBvciBuZWdhdGl2ZSB3b3JkcywgYWNjb3JkaW5nIHRvIGEgcmVmZXJlbmNlIGxleGljb24uIE9uZSBvZiB0aGUgcHJvYmxlbXMgd2l0aCB0aGlzIGFwcHJvYWNoIGlzIHRoYXQgYSB3b3JkJ3MgY29udGV4dCBjYW4gbWF0dGVyIG5lYXJseSBhcyBtdWNoIGFzIGl0cyBwcmVzZW5jZS4gRm9yIGV4YW1wbGUsIHRoZSB3b3JkcyAiaGFwcHkiIGFuZCAibGlrZSIgd2lsbCBiZSBjb3VudGVkIGFzIHBvc2l0aXZlLCBldmVuIGluIGEgc2VudGVuY2UgbGlrZSAiSSdtIG5vdCAqKmhhcHB5KiogYW5kIEkgZG9uJ3QgKipsaWtlKiogaXQhIgoKTm93IHRoYXQgd2UgaGF2ZSB0aGUgZGF0YSBvcmdhbml6ZWQgaW50byBiaWdyYW1zLCBpdCdzIGVhc3kgdG8gdGVsbCBob3cgb2Z0ZW4gd29yZHMgYXJlIHByZWNlZGVkIGJ5IGEgd29yZCBsaWtlICJub3QiOgoKYGBge3J9CmJpZ3JhbXNfc2VwYXJhdGVkICU+JQogIGZpbHRlcih3b3JkMSA9PSAibm90IikgJT4lCiAgY291bnQod29yZDEsIHdvcmQyLCBzb3J0ID0gVFJVRSkKYGBgCgpCeSBwZXJmb3JtaW5nIHNlbnRpbWVudCBhbmFseXNpcyBvbiB0aGUgYmlncmFtIGRhdGEsIHdlIGNhbiBleGFtaW5lIGhvdyBvZnRlbiBzZW50aW1lbnQtYXNzb2NpYXRlZCB3b3JkcyBhcmUgcHJlY2VkZWQgYnkgIm5vdCIgb3Igb3RoZXIgbmVnYXRpbmcgd29yZHMuIFdlIGNvdWxkIHVzZSB0aGlzIHRvIGlnbm9yZSBvciBldmVuIHJldmVyc2UgdGhlaXIgY29udHJpYnV0aW9uIHRvIHRoZSBzZW50aW1lbnQgc2NvcmUuCgpMZXQncyB1c2UgdGhlIEFGSU5OIGxleGljb24gZm9yIHNlbnRpbWVudCBhbmFseXNpcywgd2hpY2ggeW91IG1heSByZWNhbGwgZ2l2ZXMgYSBudW1lcmljIHNlbnRpbWVudCBzY29yZSBmb3IgZWFjaCB3b3JkLCB3aXRoIHBvc2l0aXZlIG9yIG5lZ2F0aXZlIG51bWJlcnMgaW5kaWNhdGluZyB0aGUgZGlyZWN0aW9uIG9mIHRoZSBzZW50aW1lbnQuCgpgYGB7ciBBRklOTl9uZ3JhbXN9CkFGSU5OIDwtIGdldF9zZW50aW1lbnRzKCJhZmlubiIpCgpBRklOTgpgYGAKCldlIGNhbiB0aGVuIGV4YW1pbmUgdGhlIG1vc3QgZnJlcXVlbnQgd29yZHMgdGhhdCB3ZXJlIHByZWNlZGVkIGJ5ICJub3QiIGFuZCB3ZXJlIGFzc29jaWF0ZWQgd2l0aCBhIHNlbnRpbWVudC4KCmBgYHtyIG5vdF93b3Jkc30Kbm90X3dvcmRzIDwtIGJpZ3JhbXNfc2VwYXJhdGVkICU+JQogIGZpbHRlcih3b3JkMSA9PSAibm90IikgJT4lCiAgaW5uZXJfam9pbihBRklOTiwgYnkgPSBjKHdvcmQyID0gIndvcmQiKSkgJT4lCiAgY291bnQod29yZDIsIHNjb3JlLCBzb3J0ID0gVFJVRSkgJT4lCiAgdW5ncm91cCgpCgpub3Rfd29yZHMKYGBgCgpGb3IgZXhhbXBsZSwgdGhlIG1vc3QgY29tbW9uIHNlbnRpbWVudC1hc3NvY2lhdGVkIHdvcmQgdG8gZm9sbG93ICJub3QiIHdhcyAibGlrZSIsIHdoaWNoIHdvdWxkIG5vcm1hbGx5IGhhdmUgYSAocG9zaXRpdmUpIHNjb3JlIG9mIDIuCgpJdCdzIHdvcnRoIGFza2luZyB3aGljaCB3b3JkcyBjb250cmlidXRlZCB0aGUgbW9zdCBpbiB0aGUgIndyb25nIiBkaXJlY3Rpb24uIFRvIGNvbXB1dGUgdGhhdCwgd2UgY2FuIG11bHRpcGx5IHRoZWlyIHNjb3JlIGJ5IHRoZSBudW1iZXIgb2YgdGltZXMgdGhleSBhcHBlYXIgKHNvIHRoYXQgYSB3b3JkIHdpdGggYSBzY29yZSBvZiArMyBvY2N1cnJpbmcgMTAgdGltZXMgaGFzIGFzIG11Y2ggaW1wYWN0IGFzIGEgd29yZCB3aXRoIGEgc2VudGltZW50IHNjb3JlIG9mICsxIG9jY3VycmluZyAzMCB0aW1lcykuIFdlIHZpc3VhbGl6ZSB0aGUgcmVzdWx0IHdpdGggYSBiYXIgcGxvdC4KCmBgYHtyIG5vdHdvcmRzcGxvdCwgZmlnLndpZHRoPTgsIGZpZy5oZWlnaHQ9Nn0Kbm90X3dvcmRzICU+JQogIG11dGF0ZShjb250cmlidXRpb24gPSBuICogc2NvcmUpICU+JQogIGFycmFuZ2UoZGVzYyhhYnMoY29udHJpYnV0aW9uKSkpICU+JQogIGhlYWQoMjApICU+JQogIG11dGF0ZSh3b3JkMiA9IHJlb3JkZXIod29yZDIsIGNvbnRyaWJ1dGlvbikpICU+JQogIGdncGxvdChhZXMod29yZDIsIG4gKiBzY29yZSwgZmlsbCA9IG4gKiBzY29yZSA+IDApKSArCiAgZ2VvbV9jb2woc2hvdy5sZWdlbmQgPSBGQUxTRSkgKwogIHhsYWIoIldvcmRzIHByZWNlZGVkIGJ5IFwibm90XCIiKSArCiAgeWxhYigiU2VudGltZW50IHNjb3JlICogbnVtYmVyIG9mIG9jY3VycmVuY2VzIikgKwogIGNvb3JkX2ZsaXAoKQpgYGAKClRoZSBiaWdyYW1zICJub3QgbGlrZSIgYW5kICJub3QgaGVscCIgd2VyZSBvdmVyd2hlbG1pbmdseSB0aGUgbGFyZ2VzdCBjYXVzZXMgb2YgbWlzaWRlbnRpZmljYXRpb24sIG1ha2luZyB0aGUgdGV4dCBzZWVtIG11Y2ggbW9yZSBwb3NpdGl2ZSB0aGFuIGl0IGlzLiBCdXQgd2UgY2FuIHNlZSBwaHJhc2VzIGxpa2UgIm5vdCBhZnJhaWQiIGFuZCAibm90IGZhaWwiIHNvbWV0aW1lcyBzdWdnZXN0IHRleHQgaXMgbW9yZSBuZWdhdGl2ZSB0aGFuIGl0IGlzLgoKUGxlYXNlIHJlZmVyIHRvIHJlbGF0ZWQgY2hhcHRlciBmb3IgbW9yZSBhYm91dCBuZWdhdGlvbiB3b3Jkcywgc3VjaCBhcyAibm90IiwgIm5vIiwgIm5ldmVyIiwgIndpdGhvdXQiLgoKIyMjIFZpc3VhbGl6aW5nIGEgbmV0d29yayBvZiBiaWdyYW1zIHdpdGggZ2dyYXBoCgpXZSBtYXkgYmUgaW50ZXJlc3RlZCBpbiB2aXN1YWxpemluZyBhbGwgb2YgdGhlIHJlbGF0aW9uc2hpcHMgYW1vbmcgd29yZHMgc2ltdWx0YW5lb3VzbHksIHJhdGhlciB0aGFuIGp1c3QgdGhlIHRvcCBmZXcgYXQgYSB0aW1lLiBBcyBvbmUgY29tbW9uIHZpc3VhbGl6YXRpb24sIHdlIGNhbiBhcnJhbmdlIHRoZSB3b3JkcyBpbnRvIGEgbmV0d29yaywgb3IgImdyYXBoLiIgSGVyZSB3ZSdsbCBiZSByZWZlcnJpbmcgdG8gYSAiZ3JhcGgiIG5vdCBpbiB0aGUgc2Vuc2Ugb2YgYSB2aXN1YWxpemF0aW9uLCBidXQgYXMgYSBjb21iaW5hdGlvbiBvZiBjb25uZWN0ZWQgbm9kZXMuIEEgZ3JhcGggY2FuIGJlIGNvbnN0cnVjdGVkIGZyb20gYSB0aWR5IG9iamVjdCBzaW5jZSBpdCBoYXMgdGhyZWUgdmFyaWFibGVzOgoKKiAqKmZyb20qKjogdGhlIG5vZGUgYW4gZWRnZSBpcyBjb21pbmcgZnJvbQoqICoqdG8qKjogdGhlIG5vZGUgYW4gZWRnZSBpcyBnb2luZyB0b3dhcmRzCiogKip3ZWlnaHQqKjogQSBudW1lcmljIHZhbHVlIGFzc29jaWF0ZWQgd2l0aCBlYWNoIGVkZ2UKClRoZSBbaWdyYXBoXShodHRwOi8vaWdyYXBoLm9yZy8pIHBhY2thZ2UgaGFzIG1hbnkgcG93ZXJmdWwgZnVuY3Rpb25zIGZvciBtYW5pcHVsYXRpbmcgYW5kIGFuYWx5emluZyBuZXR3b3Jrcy4gT25lIHdheSB0byBjcmVhdGUgYW4gaWdyYXBoIG9iamVjdCBmcm9tIHRpZHkgZGF0YSBpcyB0aGUgYGdyYXBoX2Zyb21fZGF0YV9mcmFtZSgpYCBmdW5jdGlvbiwgd2hpY2ggdGFrZXMgYSBkYXRhIGZyYW1lIG9mIGVkZ2VzIHdpdGggY29sdW1ucyBmb3IgImZyb20iLCAidG8iLCBhbmQgZWRnZSBhdHRyaWJ1dGVzIChpbiB0aGlzIGNhc2UgYG5gKToKCmBgYHtyIGJpZ3JhbV9ncmFwaH0KbGlicmFyeShpZ3JhcGgpCiMgb3JpZ2luYWwgY291bnRzCmJpZ3JhbV9jb3VudHMKCiMgZmlsdGVyIGZvciBvbmx5IHJlbGF0aXZlbHkgY29tbW9uIGNvbWJpbmF0aW9ucwpiaWdyYW1fZ3JhcGggPC0gYmlncmFtX2NvdW50cyAlPiUKICBmaWx0ZXIobiA+IDIwKSAlPiUKICBncmFwaF9mcm9tX2RhdGFfZnJhbWUoKQoKYmlncmFtX2dyYXBoCmBgYAoKVGhlIGludGVybmFscyBvZiBgaWdyYXBoYCBwYWNrYWdlIG1pZ2h0IGJlIG92ZXJ3aGVsbWluZy4gVGh1cywgdGhlcmUncyBhIHRpZHkgc29sdXRpb24gZm9yIGdyYXBoIGFuYWx5c2lzLiBUaGUgYHRpZHlncmFwaGAgcGFja2FnZSBjYW4gcmVwcmVzZW50IHRoZSBncmFwaCBpbiB0aWJibGUgZm9ybWF0LiBNb3JlIHRoYW4gdGhhdCwgdGhlIGdyYXBoIG5vZGVzIG9yIGVkZ2VzIGNhbiBiZSBtYW5pcHVsYXRlZCB3aXRoIGBkcGx5cmAgdmVyYnMuIFRoZXJlIGFyZSB2ZXJ5IGludGVyZXN0aW5nIGFkZGl0aW9uYWwgdmVyYnMgd2hpY2ggYXJlIHdvcnRoIGNoZWNraW5nLgoKVGhlIHNhbWUgaW1wb3J0IGludG8gZ3JhcGggY2FuIGJlIGFjaGlldmVkIHdpdGggYHRpZHlncmFwaGAgYXMgd2VsbC4gWW91IGNhbiBpbXBvcnQgYW4gZXhpc3RpbmcgYGlncmFwaGAgb2JqZWN0IG9yIGdlbmVyYXRlIGEgZ3JhcGggZnJvbSBkYXRhIGZyYW1lLgoKKipJbXBvcnRpbmcgYW4gZXhpc3RpbmcgaWdyYXBoIG9iamVjdCoqCgpgYGB7ciB0aWR5X2dyYXBoX2ltcG9ydH0KYXNfdGJsX2dyYXBoKGJpZ3JhbV9ncmFwaCkKYGBgCgoqKlRibF9ncmFwaCBmcm9tIGEgZGF0YSBmcmFtZSoqCgpgYGB7ciB0aWR5Z3JhcGhfbmV3fQogYmlncmFtX2NvdW50cyAlPiUKICBmaWx0ZXIobiA+IDIwKSAlPiUgCiAgYXNfdGJsX2dyYXBoKCkKYGBgCgppZ3JhcGggaGFzIHBsb3R0aW5nIGZ1bmN0aW9ucyBidWlsdCBpbiwgYnV0IHRoZXkncmUgbm90IHdoYXQgdGhlIHBhY2thZ2UgaXMgZGVzaWduZWQgdG8gZG8sIHNvIG1hbnkgb3RoZXIgcGFja2FnZXMgaGF2ZSBkZXZlbG9wZWQgdmlzdWFsaXphdGlvbiBtZXRob2RzIGZvciBncmFwaCBvYmplY3RzLiBXZSByZWNvbW1lbmQgdGhlIGdncmFwaCBwYWNrYWdlLCBiZWNhdXNlIGl0IGltcGxlbWVudHMgdGhlc2UgdmlzdWFsaXphdGlvbnMgaW4gdGVybXMgb2YgdGhlIGdyYW1tYXIgb2YgZ3JhcGhpY3MsIHdoaWNoIHdlIGFyZSBhbHJlYWR5IGZhbWlsaWFyIHdpdGggZnJvbSBnZ3Bsb3QyLgoKV2UgY2FuIGNvbnZlcnQgYW4gaWdyYXBoIG9iamVjdCBpbnRvIGEgZ2dyYXBoIHdpdGggdGhlIGBnZ3JhcGhgIGZ1bmN0aW9uLCBhZnRlciB3aGljaCB3ZSBhZGQgbGF5ZXJzIHRvIGl0LCBtdWNoIGxpa2UgbGF5ZXJzIGFyZSBhZGRlZCBpbiBnZ3Bsb3QyLiBGb3IgZXhhbXBsZSwgZm9yIGEgYmFzaWMgZ3JhcGggd2UgbmVlZCB0byBhZGQgdGhyZWUgbGF5ZXJzOiBub2RlcywgZWRnZXMsIGFuZCB0ZXh0LgoKYGBge3IgYmlncmFtZ3JhcGgsIGZpZy53aWR0aCA9IDEyLCBmaWcuaGVpZ2h0ID0gMTJ9CmxpYnJhcnkoZ2dyYXBoKQpzZXQuc2VlZCgyMDE3KQojcGxvdChiaWdyYW1fZ3JhcGgpCmdncmFwaChiaWdyYW1fZ3JhcGgsIGxheW91dCA9ICJmciIpICsKICBnZW9tX2VkZ2VfbGluaygpICsKICBnZW9tX25vZGVfcG9pbnQoKSArCiAgZ2VvbV9ub2RlX3RleHQoYWVzKGxhYmVsID0gbmFtZSksIHZqdXN0ID0gMSwgaGp1c3QgPSAxKQpgYGAKCkluIEZpZ3VyZSwgd2UgY2FuIHZpc3VhbGl6ZSBzb21lIGRldGFpbHMgb2YgdGhlIHRleHQgc3RydWN0dXJlLiBGb3IgZXhhbXBsZSwgd2Ugc2VlIHRoYXQgc2FsdXRhdGlvbnMgc3VjaCBhcyAibWlzcyIsICJsYWR5IiwgInNpciIsICJhbmQgImNvbG9uZWwiIGZvcm0gY29tbW9uIGNlbnRlcnMgb2Ygbm9kZXMsIHdoaWNoIGFyZSBvZnRlbiBmb2xsb3dlZCBieSBuYW1lcy4gV2UgYWxzbyBzZWUgcGFpcnMgb3IgdHJpcGxldHMgYWxvbmcgdGhlIG91dHNpZGUgdGhhdCBmb3JtIGNvbW1vbiBzaG9ydCBwaHJhc2VzICgiaGFsZiBob3VyIiwgInRob3VzYW5kIHBvdW5kcyIsIG9yICJzaG9ydCB0aW1lL3BhdXNlIikuCgpXZSBjb25jbHVkZSB3aXRoIGEgZmV3IHBvbGlzaGluZyBvcGVyYXRpb25zIHRvIG1ha2UgYSBiZXR0ZXIgbG9va2luZyBncmFwaDoKCiogV2UgYWRkIHRoZSBgZWRnZV9hbHBoYWAgYWVzdGhldGljIHRvIHRoZSBsaW5rIGxheWVyIHRvIG1ha2UgbGlua3MgdHJhbnNwYXJlbnQgYmFzZWQgb24gaG93IGNvbW1vbiBvciByYXJlIHRoZSBiaWdyYW0gaXMKKiBXZSBhZGQgZGlyZWN0aW9uYWxpdHkgd2l0aCBhbiBhcnJvdywgY29uc3RydWN0ZWQgdXNpbmcgYGdyaWQ6OmFycm93KClgLCBpbmNsdWRpbmcgYW4gYGVuZF9jYXBgIG9wdGlvbiB0aGF0IHRlbGxzIHRoZSBhcnJvdyB0byBlbmQgYmVmb3JlIHRvdWNoaW5nIHRoZSBub2RlCiogV2UgdGlua2VyIHdpdGggdGhlIG9wdGlvbnMgdG8gdGhlIG5vZGUgbGF5ZXIgdG8gbWFrZSB0aGUgbm9kZXMgbW9yZSBhdHRyYWN0aXZlIChsYXJnZXIsIGJsdWUgcG9pbnRzKQoqIFdlIGFkZCBhIHRoZW1lIHRoYXQncyB1c2VmdWwgZm9yIHBsb3R0aW5nIG5ldHdvcmtzLCBgdGhlbWVfdm9pZCgpYAoKYGBge3IgYmlncmFtZ2dyYXBoYXVzdGVuMiwgZmlnLndpZHRoID0gMTIsIGZpZy5oZWlnaHQgPSAxMiwgZmlnLmNhcCA9ICJDb21tb24gYmlncmFtcyBpbiBQcmlkZSBhbmQgUHJlanVkaWNlLCB3aXRoIHNvbWUgcG9saXNoaW5nLiJ9CnNldC5zZWVkKDIwMTYpCgphIDwtIGdyaWQ6OmFycm93KHR5cGUgPSAiY2xvc2VkIiwgbGVuZ3RoID0gdW5pdCguMTUsICJpbmNoZXMiKSkKCmdncmFwaChiaWdyYW1fZ3JhcGgsIGxheW91dCA9ICJmciIpICsKICBnZW9tX2VkZ2VfbGluayhhZXMoZWRnZV9hbHBoYSA9IG4pLCBzaG93LmxlZ2VuZCA9IEZBTFNFLAogICAgICAgICAgICAgICAgIGFycm93ID0gYSwgZW5kX2NhcCA9IGNpcmNsZSguMDcsICdpbmNoZXMnKSkgKwogIGdlb21fbm9kZV9wb2ludChjb2xvciA9ICJsaWdodGJsdWUiLCBzaXplID0gNSkgKwogIGdlb21fbm9kZV90ZXh0KGFlcyhsYWJlbCA9IG5hbWUpLCB2anVzdCA9IDEsIGhqdXN0ID0gMSkgKwogIHRoZW1lX3ZvaWQoKQpgYGAKCkl0IG1heSB0YWtlIGEgc29tZSBleHBlcmltZW50YXRpb24gd2l0aCBnZ3JhcGggdG8gZ2V0IHlvdXIgbmV0d29ya3MgaW50byBhIHByZXNlbnRhYmxlIGZvcm1hdCBsaWtlIHRoaXMsIGJ1dCB0aGUgbmV0d29yayBzdHJ1Y3R1cmUgaXMgdXNlZnVsIGFuZCBmbGV4aWJsZSB3YXkgdG8gdmlzdWFsaXplIHJlbGF0aW9uYWwgdGlkeSBkYXRhLgoKCj4gTm90ZSB0aGF0IHRoaXMgaXMgYSB2aXN1YWxpemF0aW9uIG9mIGEgKipNYXJrb3YgY2hhaW4qKiwgYSBjb21tb24gbW9kZWwgaW4gdGV4dCBwcm9jZXNzaW5nLiBJbiBhIE1hcmtvdiBjaGFpbiwgZWFjaCBjaG9pY2Ugb2Ygd29yZCBkZXBlbmRzIG9ubHkgb24gdGhlIHByZXZpb3VzIHdvcmQuIEluIHRoaXMgY2FzZSwgYSByYW5kb20gZ2VuZXJhdG9yIGZvbGxvd2luZyB0aGlzIG1vZGVsIG1pZ2h0IHNwaXQgb3V0ICJkZWFyIiwgdGhlbiAic2lyIiwgdGhlbiAid2lsbGlhbS93YWx0ZXIvdGhvbWFzL3Rob21hcydzIiwgYnkgZm9sbG93aW5nIGVhY2ggd29yZCB0byB0aGUgbW9zdCBjb21tb24gd29yZHMgdGhhdCBmb2xsb3cgaXQuIFRvIG1ha2UgdGhlIHZpc3VhbGl6YXRpb24gaW50ZXJwcmV0YWJsZSwgd2UgY2hvc2UgdG8gc2hvdyBvbmx5IHRoZSBtb3N0IGNvbW1vbiB3b3JkIHRvIHdvcmQgY29ubmVjdGlvbnMsIGJ1dCBvbmUgY291bGQgaW1hZ2luZSBhbiBlbm9ybW91cyBncmFwaCByZXByZXNlbnRpbmcgYWxsIGNvbm5lY3Rpb25zIHRoYXQgb2NjdXIgaW4gdGhlIHRleHQuCgojIyMgVmlzdWFsaXppbmcgYmlncmFtcyBpbiBvdGhlciB0ZXh0cwoKUGxlYXNlIHJlZmVyIHRvIHJlbGF0ZWQgc2VjdGlvbiBpbiBUZXh0IE1pbmluZyBib29rIHdoaWNoIGFuYWx5emVzIGJpZ3JhbXMgaW4gQmlibGUgYW5kIGdlbmVyYXRlcyB0aGUgZm9sbG93aW5nIGRpYWdyYW0uCgohW0tpbmcgSmFtZXMgdmVyc2lvbiBCaWJsZSB3b3JkIHBhaXIgbmV0d29ya10oaHR0cDovL3RpZHl0ZXh0bWluaW5nLmNvbS8wNC13b3JkLWNvbWJpbmF0aW9uc19maWxlcy9maWd1cmUtaHRtbC9ranZiaWdyYW1zLTEucG5nKQoKRmlndXJlIGFib3ZlIHRodXMgbGF5cyBvdXQgYSBjb21tb24gImJsdWVwcmludCIgb2YgbGFuZ3VhZ2Ugd2l0aGluIHRoZSBCaWJsZSwgcGFydGljdWxhcmx5IGZvY3VzZWQgYXJvdW5kICJ0aHkiIGFuZCAidGhvdSIgKHdoaWNoIGNvdWxkIHByb2JhYmx5IGJlIGNvbnNpZGVyZWQgc3RvcHdvcmRzISkgWW91IGNhbiB1c2UgdGhlIGd1dGVuYmVyZ3IgcGFja2FnZSBhbmQgdGhlc2UgYGNvdW50X2JpZ3JhbXNgL2B2aXN1YWxpemVfYmlncmFtc2AgZnVuY3Rpb25zIHRvIHZpc3VhbGl6ZSBiaWdyYW1zIGluIG90aGVyIGNsYXNzaWMgYm9va3MgeW91J3JlIGludGVyZXN0ZWQgaW4uCgojIyBDb3VudGluZyBhbmQgY29ycmVsYXRpbmcgcGFpcnMgb2Ygd29yZHMgd2l0aCB0aGUgd2lkeXIgcGFja2FnZQoKVG9rZW5pemluZyBieSBuLWdyYW0gaXMgYSB1c2VmdWwgd2F5IHRvIGV4cGxvcmUgcGFpcnMgb2YgYWRqYWNlbnQgd29yZHMuIEhvd2V2ZXIsIHdlIG1heSBhbHNvIGJlIGludGVyZXN0ZWQgaW4gd29yZHMgdGhhdCB0ZW5kIHRvIGNvLW9jY3VyIHdpdGhpbiBwYXJ0aWN1bGFyIGRvY3VtZW50cyBvciBwYXJ0aWN1bGFyIGNoYXB0ZXJzLCBldmVuIGlmIHRoZXkgZG9uJ3Qgb2NjdXIgbmV4dCB0byBlYWNoIG90aGVyLgoKVGlkeSBkYXRhIGlzIGEgdXNlZnVsIHN0cnVjdHVyZSBmb3IgY29tcGFyaW5nIGJldHdlZW4gdmFyaWFibGVzIG9yIGdyb3VwaW5nIGJ5IHJvd3MsIGJ1dCBpdCBjYW4gYmUgY2hhbGxlbmdpbmcgdG8gY29tcGFyZSBiZXR3ZWVuIHJvd3M6IGZvciBleGFtcGxlLCB0byBjb3VudCB0aGUgbnVtYmVyIG9mIHRpbWVzIHRoYXQgdHdvIHdvcmRzIGFwcGVhciB3aXRoaW4gdGhlIHNhbWUgZG9jdW1lbnQsIG9yIHRvIHNlZSBob3cgY29ycmVsYXRlZCB0aGV5IGFyZS4gTW9zdCBvcGVyYXRpb25zIGZvciBmaW5kaW5nIHBhaXJ3aXNlIGNvdW50cyBvciBjb3JyZWxhdGlvbnMgbmVlZCB0byB0dXJuIHRoZSBkYXRhIGludG8gYSB3aWRlIG1hdHJpeCBmaXJzdC4KCiFbd2lkeXIgcGFja2FnZV0oaHR0cDovL3RpZHl0ZXh0bWluaW5nLmNvbS9pbWFnZXMvd2lkeXIuanBnKQoKV2UnbGwgZXhhbWluZSBzb21lIG9mIHRoZSB3YXlzIHRpZHkgdGV4dCBjYW4gYmUgdHVybmVkIGludG8gYSB3aWRlIG1hdHJpeCwgYnV0IGluIHRoaXMgY2FzZSBpdCBpc24ndCBuZWNlc3NhcnkuIFRoZSBbd2lkeXJdKGh0dHBzOi8vZ2l0aHViLmNvbS9kZ3J0d28vd2lkeXIpIHBhY2thZ2UgbWFrZXMgb3BlcmF0aW9ucyBzdWNoIGFzIGNvbXB1dGluZyBjb3VudHMgYW5kIGNvcnJlbGF0aW9ucyBlYXN5LCBieSBzaW1wbGlmeWluZyB0aGUgcGF0dGVybiBvZiAid2lkZW4gZGF0YSwgcGVyZm9ybSBhbiBvcGVyYXRpb24sIHRoZW4gcmUtdGlkeSBkYXRhIiAoRmlndXJlIGFib3ZlKS4gV2UnbGwgZm9jdXMgb24gYSBzZXQgb2YgZnVuY3Rpb25zIHRoYXQgbWFrZSBwYWlyd2lzZSBjb21wYXJpc29ucyBiZXR3ZWVuIGdyb3VwcyBvZiBvYnNlcnZhdGlvbnMgKGZvciBleGFtcGxlLCBiZXR3ZWVuIGRvY3VtZW50cywgb3Igc2VjdGlvbnMgb2YgdGV4dCkuCgojIyMgQ291bnRpbmcgYW5kIGNvcnJlbGF0aW5nIGFtb25nIHNlY3Rpb25zCgpDb25zaWRlciB0aGUgYm9vayAiUHJpZGUgYW5kIFByZWp1ZGljZSIgZGl2aWRlZCBpbnRvIDEwLWxpbmUgc2VjdGlvbnMsIGFzIHdlIGRpZCAod2l0aCBsYXJnZXIgc2VjdGlvbnMpIGZvciBzZW50aW1lbnQgYW5hbHlzaXMgQ2hhcHRlci4gV2UgbWF5IGJlIGludGVyZXN0ZWQgaW4gd2hhdCB3b3JkcyB0ZW5kIHRvIGFwcGVhciB3aXRoaW4gdGhlIHNhbWUgc2VjdGlvbi4KCmBgYHtyIGF1c3Rlbl9zZWN0aW9uX3dvcmRzfQphdXN0ZW5fc2VjdGlvbl93b3JkcyA8LSBhdXN0ZW5fYm9va3MoKSAlPiUKICBmaWx0ZXIoYm9vayA9PSAiUHJpZGUgJiBQcmVqdWRpY2UiKSAlPiUKICBtdXRhdGUoc2VjdGlvbiA9IHJvd19udW1iZXIoKSAlLyUgMTApICU+JQogIGZpbHRlcihzZWN0aW9uID4gMCkgJT4lCiAgdW5uZXN0X3Rva2Vucyh3b3JkLCB0ZXh0KSAlPiUKICBmaWx0ZXIoIXdvcmQgJWluJSBzdG9wX3dvcmRzJHdvcmQpCgphdXN0ZW5fc2VjdGlvbl93b3JkcwpgYGAKCk9uZSB1c2VmdWwgZnVuY3Rpb24gZnJvbSB3aWR5ciBpcyB0aGUgYHBhaXJ3aXNlX2NvdW50KClgIGZ1bmN0aW9uLiBUaGUgcHJlZml4IGBwYWlyd2lzZV9gIG1lYW5zIGl0IHdpbGwgcmVzdWx0IGluIG9uZSByb3cgZm9yIGVhY2ggcGFpciBvZiB3b3JkcyBpbiB0aGUgYHdvcmRgIHZhcmlhYmxlLiBUaGlzIGxldHMgdXMgY291bnQgY29tbW9uIHBhaXJzIG9mIHdvcmRzIGNvLWFwcGVhcmluZyB3aXRoaW4gdGhlIHNhbWUgc2VjdGlvbjoKCmBgYHtyIGNvdW50X3BhaXJzX3dvcmRzfQpsaWJyYXJ5KHdpZHlyKQoKIyBjb3VudCB3b3JkcyBjby1vY2N1cmluZyB3aXRoaW4gc2VjdGlvbnMKd29yZF9wYWlycyA8LSBhdXN0ZW5fc2VjdGlvbl93b3JkcyAlPiUKICBwYWlyd2lzZV9jb3VudCh3b3JkLCBzZWN0aW9uLCBzb3J0ID0gVFJVRSkKCndvcmRfcGFpcnMKYGBgCgpOb3RpY2UgdGhhdCB3aGlsZSB0aGUgaW5wdXQgaGFkIG9uZSByb3cgZm9yIGVhY2ggcGFpciBvZiBhIGRvY3VtZW50IChhIDEwLWxpbmUgc2VjdGlvbikgYW5kIGEgd29yZCwgdGhlIG91dHB1dCBoYXMgb25lIHJvdyBmb3IgZWFjaCBwYWlyIG9mIHdvcmRzLiBUaGlzIGlzIGFsc28gYSB0aWR5IGZvcm1hdCwgYnV0IG9mIGEgdmVyeSBkaWZmZXJlbnQgc3RydWN0dXJlIHRoYXQgd2UgY2FuIHVzZSB0byBhbnN3ZXIgbmV3IHF1ZXN0aW9ucy4KCkZvciBleGFtcGxlLCB3ZSBjYW4gc2VlIHRoYXQgdGhlIG1vc3QgY29tbW9uIHBhaXIgb2Ygd29yZHMgaW4gYSBzZWN0aW9uIGlzICJFbGl6YWJldGgiIGFuZCAiRGFyY3kiICh0aGUgdHdvIG1haW4gY2hhcmFjdGVycykuIFdlIGNhbiBlYXNpbHkgZmluZCB0aGUgd29yZHMgdGhhdCBtb3N0IG9mdGVuIG9jY3VyIHdpdGggRGFyY3k6CgpgYGB7cn0Kd29yZF9wYWlycyAlPiUKICBmaWx0ZXIoaXRlbTEgPT0gImRhcmN5IikKYGBgCgojIyMgUGFpcndpc2UgY29ycmVsYXRpb24geyNwYWlyd2lzZS1jb3JyZWxhdGlvbn0KClBhaXJzIGxpa2UgIkVsaXphYmV0aCIgYW5kICJEYXJjeSIgYXJlIHRoZSBtb3N0IGNvbW1vbiBjby1vY2N1cnJpbmcgd29yZHMsIGJ1dCB0aGF0J3Mgbm90IHBhcnRpY3VsYXJseSBtZWFuaW5nZnVsIHNpbmNlICp0aGV5J3JlIGFsc28gdGhlIG1vc3QgY29tbW9uIGluZGl2aWR1YWwgd29yZHMuKiBXZSBtYXkgaW5zdGVhZCB3YW50IHRvIGV4YW1pbmUgKipjb3JyZWxhdGlvbioqIGFtb25nIHdvcmRzLCB3aGljaCBpbmRpY2F0ZXMgaG93IG9mdGVuIHRoZXkgYXBwZWFyIHRvZ2V0aGVyIHJlbGF0aXZlIHRvIGhvdyBvZnRlbiB0aGV5IGFwcGVhciBzZXBhcmF0ZWx5LgoKSW4gcGFydGljdWxhciwgaGVyZSB3ZSdsbCBmb2N1cyBvbiB0aGUgW3BoaSBjb2VmZmljaWVudF0oaHR0cHM6Ly9lbi53aWtpcGVkaWEub3JnL3dpa2kvUGhpX2NvZWZmaWNpZW50KSwgYSBjb21tb24gbWVhc3VyZSBmb3IgYmluYXJ5IGNvcnJlbGF0aW9uLiBUaGUgZm9jdXMgb2YgdGhlIHBoaSBjb2VmZmljaWVudCBpcyBob3cgbXVjaCBtb3JlIGxpa2VseSBpdCBpcyB0aGF0IGVpdGhlciAqKmJvdGgqKiB3b3JkIFggYW5kIFkgYXBwZWFyLCBvciAqKm5laXRoZXIqKiBkbywgdGhhbiB0aGF0IG9uZSBhcHBlYXJzIHdpdGhvdXQgdGhlIG90aGVyLgoKQ29uc2lkZXIgdGhlIGZvbGxvd2luZyB0YWJsZToKCnwgIHwgSGFzIHdvcmQgWSB8IE5vIHdvcmQgWSB8IFRvdGFsIHwgIHwKfC0tLS0tLS0tLS0tLXwtLS0tLS0tLS0tLS0tLS18LS0tLS0tLS0tLS0tLS0tfC0tLS0tLS0tLS0tLS0tfC0tLXwKfCBIYXMgd29yZCBYIHwgJG5fezExfSQgfCAkbl97MTB9JCB8ICRuX3sxXGNkb3R9JCB8ICB8CnwgTm8gd29yZCBYIHwgJG5fezAxfSQgfCAkbl97MDB9JCB8ICRuX3swXGNkb3R9JCB8ICB8CnwgVG90YWwgfCAkbl97XGNkb3QgMX0kIHwgJG5fe1xjZG90IDB9JCB8IG4gfCAgfAoKRm9yIGV4YW1wbGUsIHRoYXQgJG5fezExfSQgcmVwcmVzZW50cyB0aGUgbnVtYmVyIG9mIGRvY3VtZW50cyB3aGVyZSBib3RoIHdvcmQgWCBhbmQgd29yZCBZIGFwcGVhciwgJG5fezAwfSQgdGhlIG51bWJlciB3aGVyZSBuZWl0aGVyIGFwcGVhcnMsIGFuZCAkbl97MTB9JCBhbmQgJG5fezAxfSQgdGhlIGNhc2VzIHdoZXJlIG9uZSBhcHBlYXJzIHdpdGhvdXQgdGhlIG90aGVyLiBJbiB0ZXJtcyBvZiB0aGlzIHRhYmxlLCB0aGUgcGhpIGNvZWZmaWNpZW50IGlzOgoKJCRccGhpPVxmcmFje25fezExfW5fezAwfS1uX3sxMH1uX3swMX19e1xzcXJ0e25fezFcY2RvdH1uX3swXGNkb3R9bl97XGNkb3QwfW5fe1xjZG90MX19fSQkCgo+IFRoZSBwaGkgY29lZmZpY2llbnQgaXMgZXF1aXZhbGVudCB0byB0aGUgUGVhcnNvbiBjb3JyZWxhdGlvbiwgd2hpY2ggeW91IG1heSBoYXZlIGhlYXJkIG9mIGVsc2V3aGVyZSwgd2hlbiBpdCBpcyBhcHBsaWVkIHRvIGJpbmFyeSBkYXRhKS4KClRoZSBgcGFpcndpc2VfY29yKClgIGZ1bmN0aW9uIGluIHdpZHlyIGxldHMgdXMgZmluZCB0aGUgcGhpIGNvZWZmaWNpZW50IGJldHdlZW4gd29yZHMgYmFzZWQgb24gaG93IG9mdGVuIHRoZXkgYXBwZWFyIGluIHRoZSBzYW1lIHNlY3Rpb24uIEl0cyBzeW50YXggaXMgc2ltaWxhciB0byBgcGFpcndpc2VfY291bnQoKWAuCgpgYGB7ciB3b3JkX2NvcnN9CiMgd2UgbmVlZCB0byBmaWx0ZXIgZm9yIGF0IGxlYXN0IHJlbGF0aXZlbHkgY29tbW9uIHdvcmRzIGZpcnN0CndvcmRfY29ycyA8LSBhdXN0ZW5fc2VjdGlvbl93b3JkcyAlPiUKICBncm91cF9ieSh3b3JkKSAlPiUKICBmaWx0ZXIobigpID49IDIwKSAlPiUgICAjIHRyeSBsb3dlciBudW1iZXJzIGFuZCBzZWUgd2hhdCBoYXBwZW5zCiAgcGFpcndpc2VfY29yKHdvcmQsIHNlY3Rpb24sIHNvcnQgPSBUUlVFKQoKd29yZF9jb3JzCmBgYAoKVGhpcyBvdXRwdXQgZm9ybWF0IGlzIGhlbHBmdWwgZm9yIGV4cGxvcmF0aW9uLiBGb3IgZXhhbXBsZSwgd2UgY291bGQgZmluZCB0aGUgd29yZHMgbW9zdCBjb3JyZWxhdGVkIHdpdGggYSB3b3JkIGxpa2UgInBvdW5kcyIgdXNpbmcgYSBgZmlsdGVyYCBvcGVyYXRpb24uCgpgYGB7cn0Kd29yZF9jb3JzICU+JQogIGZpbHRlcihpdGVtMSA9PSAicG91bmRzIikKYGBgCgpUaGlzIGxldHMgdXMgcGljayBwYXJ0aWN1bGFyIGludGVyZXN0aW5nIHdvcmRzIGFuZCBmaW5kIHRoZSBvdGhlciB3b3JkcyBtb3N0IGFzc29jaWF0ZWQgd2l0aCB0aGVtIChGaWd1cmUgXEByZWYoZmlnOndvcmRjb3JzKSkuCgpgYGB7ciB3b3JkY29ycywgZmlnLmhlaWdodCA9IDgsIGZpZy53aWR0aCA9IDgsIGZpZy5jYXAgPSAiV29yZHMgZnJvbSBQcmlkZSBhbmQgUHJlanVkaWNlIHRoYXQgd2VyZSBtb3N0IGNvcnJlbGF0ZWQgd2l0aCAnZWxpemFiZXRoJywgJ3BvdW5kcycsICdtYXJyaWVkJywgYW5kICdwcmlkZScifQp3b3JkX2NvcnMgJT4lCiAgZmlsdGVyKGl0ZW0xICVpbiUgYygiZWxpemFiZXRoIiwgInBvdW5kcyIsICJtYXJyaWVkIiwgInByaWRlIikpICU+JQogIGdyb3VwX2J5KGl0ZW0xKSAlPiUKICB0b3Bfbig2KSAlPiUKICB1bmdyb3VwKCkgJT4lCiAgbXV0YXRlKGl0ZW0yID0gcmVvcmRlcihpdGVtMiwgY29ycmVsYXRpb24pKSAlPiUKICBnZ3Bsb3QoYWVzKGl0ZW0yLCBjb3JyZWxhdGlvbikpICsKICBnZW9tX2JhcihzdGF0ID0gImlkZW50aXR5IikgKwogIGZhY2V0X3dyYXAofiBpdGVtMSwgc2NhbGVzID0gImZyZWUiKSArCiAgY29vcmRfZmxpcCgpCmBgYAoKSnVzdCBhcyB3ZSB1c2VkIGdncmFwaCB0byB2aXN1YWxpemUgYmlncmFtcywgd2UgY2FuIHVzZSBpdCB0byB2aXN1YWxpemUgdGhlIGNvcnJlbGF0aW9ucyBhbmQgY2x1c3RlcnMgb2Ygd29yZHMgdGhhdCB3ZXJlIGZvdW5kIGJ5IHRoZSB3aWR5ciBwYWNrYWdlIChGaWd1cmUgXEByZWYoZmlnOndvcmRjb3JzbmV0d29yaykpLgoKYGBge3Igd29yZGNvcnNuZXR3b3JrLCBmaWcuaGVpZ2h0ID0gOCwgZmlnLndpZHRoID0gOCwgZmlnLmNhcCA9ICJQYWlycyBvZiB3b3JkcyBpbiBQcmlkZSBhbmQgUHJlanVkaWNlIHRoYXQgc2hvdyBhdCBsZWFzdCBhIC4xNSBjb3JyZWxhdGlvbiBvZiBhcHBlYXJpbmcgd2l0aGluIHRoZSBzYW1lIDEwLWxpbmUgc2VjdGlvbiJ9CnNldC5zZWVkKDIwMTYpCgp3b3JkX2NvcnMgJT4lCiAgZmlsdGVyKGNvcnJlbGF0aW9uID4gLjE1KSAlPiUKICBncmFwaF9mcm9tX2RhdGFfZnJhbWUoKSAlPiUKICBnZ3JhcGgobGF5b3V0ID0gImZyIikgKwogIGdlb21fZWRnZV9saW5rKGFlcyhlZGdlX2FscGhhID0gY29ycmVsYXRpb24pLCBzaG93LmxlZ2VuZCA9IEZBTFNFKSArCiAgZ2VvbV9ub2RlX3BvaW50KGNvbG9yID0gImxpZ2h0Ymx1ZSIsIHNpemUgPSA1KSArCiAgZ2VvbV9ub2RlX3RleHQoYWVzKGxhYmVsID0gbmFtZSksIHJlcGVsID0gVFJVRSkgKwogIHRoZW1lX3ZvaWQoKQpgYGAKCk5vdGUgdGhhdCB1bmxpa2UgdGhlIGJpZ3JhbSBhbmFseXNpcywgdGhlIHJlbGF0aW9uc2hpcHMgaGVyZSBhcmUgc3ltbWV0cmljYWwsIHJhdGhlciB0aGFuIGRpcmVjdGlvbmFsICh0aGVyZSBhcmUgbm8gYXJyb3dzKS4gV2UgY2FuIGFsc28gc2VlIHRoYXQgd2hpbGUgcGFpcmluZ3Mgb2YgbmFtZXMgYW5kIHRpdGxlcyB0aGF0IGRvbWluYXRlZCBiaWdyYW0gcGFpcmluZ3MgYXJlIGNvbW1vbiwgc3VjaCBhcyAiY29sb25lbC9maXR6d2lsbGlhbSIsIHdlIGNhbiBhbHNvIHNlZSBwYWlyaW5ncyBvZiB3b3JkcyB0aGF0IGFwcGVhciBjbG9zZSB0byBlYWNoIG90aGVyLCBzdWNoIGFzICJ3YWxrIiBhbmQgInBhcmsiLCBvciAiZGFuY2UiIGFuZCAiYmFsbCIuCgojIyBTdW1tYXJ5CgpUaGlzIGNoYXB0ZXIgc2hvd2VkIGhvdyB0aGUgdGlkeSB0ZXh0IGFwcHJvYWNoIGlzIHVzZWZ1bCBub3Qgb25seSBmb3IgYW5hbHl6aW5nIGluZGl2aWR1YWwgd29yZHMsIGJ1dCBhbHNvIGZvciBleHBsb3JpbmcgdGhlIHJlbGF0aW9uc2hpcHMgYW5kIGNvbm5lY3Rpb25zIGJldHdlZW4gd29yZHMuIFN1Y2ggcmVsYXRpb25zaGlwcyBjYW4gaW52b2x2ZSBuLWdyYW1zLCB3aGljaCBlbmFibGUgdXMgdG8gc2VlIHdoYXQgd29yZHMgdGVuZCB0byBhcHBlYXIgYWZ0ZXIgb3RoZXJzLCBvciBjby1vY2N1cmVuY2VzIGFuZCBjb3JyZWxhdGlvbnMsIGZvciB3b3JkcyB0aGF0IGFwcGVhciBpbiBwcm94aW1pdHkgdG8gZWFjaCBvdGhlci4gVGhpcyBjaGFwdGVyIGFsc28gZGVtb25zdHJhdGVkIHRoZSBnZ3JhcGggcGFja2FnZSBmb3IgdmlzdWFsaXppbmcgYm90aCBvZiB0aGVzZSB0eXBlcyBvZiByZWxhdGlvbnNoaXBzIGFzIG5ldHdvcmtzLiBUaGVzZSBuZXR3b3JrIHZpc3VhbGl6YXRpb25zIGFyZSBhIGZsZXhpYmxlIHRvb2wgZm9yIGV4cGxvcmluZyByZWxhdGlvbnNoaXBzLCBhbmQgd2lsbCBwbGF5IGFuIGltcG9ydGFudCByb2xlIGluIHRoZSBjYXNlIHN0dWRpZXMgaW4gbGF0ZXIgY2hhcHRlcnMuIAoKIyBDaGFwdGVyIDUgLSBjb252ZXJ0aW5nIHRvIGFuZCBmcm9tIG5vbi10aWR5IGZvcm1hdHMKCkhlcmUncyB0aGUgb3ZlcnZpZXcgb2YgdGhlIHBhY2thZ2VzOgoKIVtUZXh0IEFuYWx5c2lzIEZsb3djaGFydF0oaHR0cDovL3RpZHl0ZXh0bWluaW5nLmNvbS9pbWFnZXMvdGlkeWZsb3ctY2gtNS5wbmcpCgojIyBUaWR5aW5nIERvY3VtZW50VGVybU1hdHJpeCBvYmplY3RzCgpUaGUgc3RydWN0dXJlIG9mIERvY3VtZW50IFRlcm0gTWF0cml4CgpgYGB7ciBldmFsPUZBTFNFfQpsaWJyYXJ5KHRtKQoKZGF0YSgiQXNzb2NpYXRlZFByZXNzIiwgcGFja2FnZSA9ICJ0b3BpY21vZGVscyIpCkFzc29jaWF0ZWRQcmVzcwoKIyMgPDxEb2N1bWVudFRlcm1NYXRyaXggKGRvY3VtZW50czogMjI0NiwgdGVybXM6IDEwNDczKT4+CiMjIE5vbi0vc3BhcnNlIGVudHJpZXM6IDMwMjAzMS8yMzIyMDMyNwojIyBTcGFyc2l0eSAgICAgICAgICAgOiA5OSUKIyMgTWF4aW1hbCB0ZXJtIGxlbmd0aDogMTgKIyMgV2VpZ2h0aW5nICAgICAgICAgIDogdGVybSBmcmVxdWVuY3kgKHRmKQpgYGAKCkEgOTklIHNwYXJzZSBtYXRyaXggaXMgY29udmVydGVkIHRvIGEgdGlkeSB0YWJsZSAob25seSBub24temVybyB2YWx1ZXMgYXJlIHVzZWQpCgpgYGB7ciBldmFsPUZBTFNFfQpsaWJyYXJ5KGRwbHlyKQpsaWJyYXJ5KHRpZHl0ZXh0KQoKYXBfdGQgPC0gdGlkeShBc3NvY2lhdGVkUHJlc3MpCmFwX3RkCgojIyAjIEEgdGliYmxlOiAzMDIsMDMxIMOXIDMKIyMgICAgZG9jdW1lbnQgICAgICAgdGVybSBjb3VudAojIyAgICAgICA8aW50PiAgICAgIDxjaHI+IDxkYmw+CiMjIDEgICAgICAgICAxICAgICBhZGRpbmcgICAgIDEKIyMgMiAgICAgICAgIDEgICAgICBhZHVsdCAgICAgMgojIyAzICAgICAgICAgMSAgICAgICAgYWdvICAgICAxCiMjIDQgICAgICAgICAxICAgIGFsY29ob2wgICAgIDEKIyMgNSAgICAgICAgIDEgIGFsbGVnZWRseSAgICAgMQojIyA2ICAgICAgICAgMSAgICAgIGFsbGVuICAgICAxCiMjIDcgICAgICAgICAxIGFwcGFyZW50bHkgICAgIDIKIyMgOCAgICAgICAgIDEgICBhcHBlYXJlZCAgICAgMQojIyA5ICAgICAgICAgMSAgIGFycmVzdGVkICAgICAxCiMjIDEwICAgICAgICAxICAgIGFzc2F1bHQgICAgIDEKIyMgIyAuLi4gd2l0aCAzMDIsMDIxIG1vcmUgcm93cwpgYGAKCiMjIENhc3RpbmcgdGlkeSB0ZXh0IGRhdGEgaW50byBhIG1hdHJpeAoKYGBge3IgZXZhbD1GQUxTRX0KYXBfdGQgJT4lCiAgY2FzdF9kdG0oZG9jdW1lbnQsIHRlcm0sIGNvdW50KQoKIyMgPDxEb2N1bWVudFRlcm1NYXRyaXggKGRvY3VtZW50czogMjI0NiwgdGVybXM6IDEwNDczKT4+CiMjIE5vbi0vc3BhcnNlIGVudHJpZXM6IDMwMjAzMS8yMzIyMDMyNwojIyBTcGFyc2l0eSAgICAgICAgICAgOiA5OSUKIyMgTWF4aW1hbCB0ZXJtIGxlbmd0aDogMTgKIyMgV2VpZ2h0aW5nICAgICAgICAgIDogdGVybSBmcmVxdWVuY3kgKHRmKQpgYGAKClNvbWUgdG9vbHMgc2ltcGx5IHJlcXVpcmUgYSBzcGFyc2UgbWF0cml4OgoKYGBge3IgZXZhbD1GQUxTRX0KCmxpYnJhcnkoTWF0cml4KQoKIyBjYXN0IGludG8gYSBNYXRyaXggb2JqZWN0Cm0gPC0gYXBfdGQgJT4lCiAgY2FzdF9zcGFyc2UoZG9jdW1lbnQsIHRlcm0sIGNvdW50KQoKY2xhc3MobSkKCiMjIFsxXSAiZGdDTWF0cml4IgojIyBhdHRyKCwicGFja2FnZSIpCiMjIFsxXSAiTWF0cml4IgoKZGltKG0pCgojIyBbMV0gIDIyNDYgMTA0NzMKYGBgCgpBbiBleGFtcGxlIGZyb20gSmFuZSBBdXN0ZW4gYm9va3MKCmBgYHtyfQpsaWJyYXJ5KGphbmVhdXN0ZW5yKQoKYXVzdGVuX2R0bSA8LSBhdXN0ZW5fYm9va3MoKSAlPiUKICB1bm5lc3RfdG9rZW5zKHdvcmQsIHRleHQpICU+JQogIGNvdW50KGJvb2ssIHdvcmQpICU+JQogIGNhc3RfZHRtKGJvb2ssIHdvcmQsIG4pCgphdXN0ZW5fZHRtCmBgYAoKUGxlYXNlIHJlZmVyIHRvIFtDaGFwdGVyIDUgY29udGVudHNdKGh0dHA6Ly90aWR5dGV4dG1pbmluZy5jb20vZHRtLmh0bWwpIGZvciBtb3JlIGV4YW1wbGVzLgoKIyBDaGFwdGVyIDYsIFRvcGljIG1vZGVsaW5nCgohW1RleHQgQW5hbHlzaXMgRmxvd2NoYXJ0IHdpdGggVG9waWMgTW9kZWxpbmddKGh0dHA6Ly90aWR5dGV4dG1pbmluZy5jb20vaW1hZ2VzL3RpZHlmbG93LWNoLTYucG5nKQoKIyMgTGF0ZW50IERpcmljaGxldCBhbGxvY2F0aW9uCgpMYXRlbnQgRGlyaWNobGV0IGFsbG9jYXRpb24gaXMgb25lIG9mIHRoZSBtb3N0IGNvbW1vbiBhbGdvcml0aG1zIGZvciB0b3BpYyBtb2RlbGluZy4gV2l0aG91dCBkaXZpbmcgaW50byB0aGUgbWF0aCBiZWhpbmQgdGhlIG1vZGVsLCB3ZSBjYW4gdW5kZXJzdGFuZCBpdCBhcyBiZWluZyBndWlkZWQgYnkgdHdvIHByaW5jaXBsZXMuCgoqIEV2ZXJ5IGRvY3VtZW50IGlzIGEgbWl4dHVyZSBvZiB0b3BpY3MuIFdlIGltYWdpbmUgdGhhdCBlYWNoIGRvY3VtZW50IG1heSBjb250YWluIHdvcmRzIGZyb20gc2V2ZXJhbCB0b3BpY3MgaW4gcGFydGljdWxhciBwcm9wb3J0aW9ucy4gRm9yIGV4YW1wbGUsIGluIGEgdHdvLXRvcGljIG1vZGVsIHdlIGNvdWxkIHNheSDigJxEb2N1bWVudCAxIGlzIDkwJSB0b3BpYyBBIGFuZCAxMCUgdG9waWMgQiwgd2hpbGUgRG9jdW1lbnQgMiBpcyAzMCUgdG9waWMgQSBhbmQgNzAlIHRvcGljIEIu4oCdCiogRXZlcnkgdG9waWMgaXMgYSBtaXh0dXJlIG9mIHdvcmRzLiBGb3IgZXhhbXBsZSwgd2UgY291bGQgaW1hZ2luZSBhIHR3by10b3BpYyBtb2RlbCBvZiBBbWVyaWNhbiBuZXdzLCB3aXRoIG9uZSB0b3BpYyBmb3Ig4oCccG9saXRpY3PigJ0gYW5kIG9uZSBmb3Ig4oCcZW50ZXJ0YWlubWVudC7igJ0gVGhlIG1vc3QgY29tbW9uIHdvcmRzIGluIHRoZSBwb2xpdGljcyB0b3BpYyBtaWdodCBiZSDigJxQcmVzaWRlbnTigJ0sIOKAnENvbmdyZXNz4oCdLCBhbmQg4oCcZ292ZXJubWVudOKAnSwgd2hpbGUgdGhlIGVudGVydGFpbm1lbnQgdG9waWMgbWF5IGJlIG1hZGUgdXAgb2Ygd29yZHMgc3VjaCBhcyDigJxtb3ZpZXPigJ0sIOKAnHRlbGV2aXNpb27igJ0sIGFuZCDigJxhY3RvcuKAnS4gSW1wb3J0YW50bHksIHdvcmRzIGNhbiBiZSBzaGFyZWQgYmV0d2VlbiB0b3BpY3M7IGEgd29yZCBsaWtlIOKAnGJ1ZGdldOKAnSBtaWdodCBhcHBlYXIgaW4gYm90aCBlcXVhbGx5LgoKTERBIGlzIGEgbWF0aGVtYXRpY2FsIG1ldGhvZCBmb3IgZXN0aW1hdGluZyBib3RoIG9mIHRoZXNlIGF0IHRoZSBzYW1lIHRpbWU6IGZpbmRpbmcgdGhlIG1peHR1cmUgb2Ygd29yZHMgdGhhdCBpcyBhc3NvY2lhdGVkIHdpdGggZWFjaCB0b3BpYywgd2hpbGUgYWxzbyBkZXRlcm1pbmluZyB0aGUgbWl4dHVyZSBvZiB0b3BpY3MgdGhhdCBkZXNjcmliZXMgZWFjaCBkb2N1bWVudC4gCgpQbGVhc2UgcmVmZXIgdG8gW0NoYXB0ZXIgNiBjb250ZW50c10oaHR0cDovL3RpZHl0ZXh0bWluaW5nLmNvbS90b3BpY21vZGVsaW5nLmh0bWwpIGZvciBleGFtcGxlcy4KCiMgQWRkaXRpb25hbCB0b3BpY3MKCnBsZWFzZSByZWZlciB0byBKdWxpYSBTaWxnZSdzIGJsb2cgcG9zdHMKCiogW1RpZHkgd29yZCB2ZWN0b3JzXShodHRwczovL2p1bGlhc2lsZ2UuY29tL2Jsb2cvdGlkeS13b3JkLXZlY3RvcnMvKQoqIFtUaWR5IHdvcmQgdmVjdG9ycywgdGFrZSB0d29dKGh0dHBzOi8vanVsaWFzaWxnZS5jb20vYmxvZy93b3JkLXZlY3RvcnMtdGFrZS10d28vKQoKV2hlcmUgc2hlIGRlZXBzIGRpdmUgaW50byB2ZXJ5IG5pY2UgY29uY2VwdHM6CgoqIE5vcm1hbGl6ZWQgc2tpcGdyYW0gcHJvYmFiaWxpdHkgLT4gV2hhdCBhcmUgdGhlIHdvcmRzIG1vc3QgYXNzb2NpYXRlZCB3aXRoIFgKKiBzaW5ndWxhciB2YWx1ZSBkZWNvbXBvc2l0aW9uIG9uIHNwYXJzZSBtYXRyaXggLT4gZmluZCBzeW5vbnltcyBvZiBYCiogV29yZCBNYXRoIGBLaW5nIC0gTWFuICsgV29tYW4gPSBRdWVlbmAKKiBXaXRoIGNvdXBsZSBvZiBsaW5lcyBsb3RzIG9mIGNhbGN1bGF0aW9ucyBhcmUgZG9uZS4gY2hlY2sgb3V0IGBhbmFsb2d5KClgIGZ1bmN0aW9uIGluIHNlY29uZCBwb3N0IQogCgojIyBaaXBmJ3MgbGF3IGluIEROQSBzZXF1ZW5jZQoKVG8gYmUgYWRkZWQgc29vbi4uCgpgYGB7ciBldmFsPUZBTFNFLCBlY2hvPUZBTFNFfQpzZXQuc2VlZCgxMjMpCm4gPC0gMzAwCmxldHMgPC0gcGFzdGUoc2FtcGxlKGMoIkEiLCJHIiwiVCIsIkMiKSwgbiwgcmVwbGFjZSA9IFRSVUUpLCBjb2xsYXBzZSA9ICIiKSAKIyBnZXQgcm9sbGluZyBrLWxlbmd0aCBzZXF1ZW5jZXMgYW5kIGNvdW50CmsgPC0gMwpzcGxpdChzdWJzdHJpbmcobGV0cywgMToobi1rKzEpLCBrOm4pLCJ0ZXN0IikKCnNldC5zZWVkKDEyMykKbiA8LSAzMDAKbSA8LSA1MDAKdHdvX2dlbmVzIDwtIGRhdGFfZnJhbWUoZ2VuZT1jKCJnZW5lMSIsImdlbmUyIiksc2VxPWMocGFzdGUoc2FtcGxlKGMoIkEiLCJHIiwiVCIsIkMiKSwgbiwgcmVwbGFjZSA9IFRSVUUpLCBjb2xsYXBzZSA9ICIiKSwgcGFzdGUoc2FtcGxlKGMoIkEiLCJHIiwiVCIsIkMiKSwgbSwgcmVwbGFjZSA9IFRSVUUpLCBjb2xsYXBzZSA9ICIiKSkpCgp0d29fZ2VuZXMgJT4lIAogIHJvd3dpc2UoKSAlPiUgCiAgbXV0YXRlKHdvcmQ9c3BsaXQoc3Vic3RyaW5nKHNlcSwgMToobmNoYXIoc2VxKS04KzEpLCA4Om5jaGFyKHNlcSkpLCJzZXEiKSkgJT4lIAogIHNlbGVjdCgtc2VxKSAlPiUgCiAgdW5uZXN0KHdvcmQpICU+JSAKICBjb3VudCh3b3JkLCBzb3J0PVRSVUUpCmBgYAoKYGBge3IgZXZhbD1GQUxTRX0KIyBpbnN0YWxsCiMgc291cmNlKCJodHRwczovL2Jpb2NvbmR1Y3Rvci5vcmcvYmlvY0xpdGUuUiIpCiMgYmlvY0xpdGUoIkJTZ2Vub21lLkVjb2xpLk5DQkkuMjAwODA4MDUiKQpsaWJyYXJ5KEJTZ2Vub21lLkVjb2xpLk5DQkkuMjAwODA4MDUpCmxpYnJhcnkoYmlvYnJvb20pCgplY28gPSBFY29saSROQ18wMDg1NjMKbGVuZ3RoKGVjbykKZWNvbGkgPC0gZGF0YV9mcmFtZShvcmdhbmlzbT0iZWNvbGkiLCBzZXE9YXMuY2hhcmFjdGVyKGVjbykpCndvcmRzIDwtIHN1YnN0cmluZyhhcy5jaGFyYWN0ZXIoZWNvKSwgMToobGVuZ3RoKHNlcSktOCsxKSwgODpsZW5ndGgoc2VxKSkKCgplY29saSAlPiUgCiAgcm93d2lzZSgpICU+JSAKICBtdXRhdGUod29yZD1zcGxpdChzdWJzdHJpbmcoc2VxLCAxOihsZW5ndGgoc2VxKS04KzEpLCA4Om5jaGFyKHNlcSkpLCJzZXEiKSkgJT4lIAogIHNlbGVjdCgtc2VxKSAlPiUgCiAgdW5uZXN0KHdvcmQpICU+JSAKICBjb3VudCh3b3JkLCBzb3J0PVRSVUUpCmBgYAoKIyBBc3NpZ25tZW50IGZvciBuZXh0IHdlZWsKCiogRGF0YUNhbXAgLSBbSW50cm9kdWN0aW9uIHRvIE1hY2hpbmUgTGVhcm5pbmddKGh0dHBzOi8vd3d3LmRhdGFjYW1wLmNvbS9jb3Vyc2VzL2ludHJvZHVjdGlvbi10by1tYWNoaW5lLWxlYXJuaW5nLXdpdGgtcikgLSBGaXJzdCAqKnR3byoqIGNoYXB0ZXJzCgojIEFib3V0IFF1aXoKCkl0IHdpbGwgYmUgYWJvdXQgY2FsY3VsYXRpb24gb2YgY29ycmVsYXRpb25zIHdpdGggdGV4dCBhbmFseXNpcy4=

Data Analysis and Visualization Lesson 11 Text Mining - Part 2

alper yilmaz

November 28th, 2017

Announcements

DataCamp status

Grade distribution

Text Mining, the Tidy Way, Part 2

Chapter 3 - word and document frequency - TF-IDF

The `bind_tf_idf` function

Chapter 4 - Relationship between words

Tokenizing by n-gram

Counting and filtering n-grams

Analyzing bigrams

Using bigrams to provide context in sentiment analysis

Visualizing a network of bigrams with ggraph

Visualizing bigrams in other texts

Counting and correlating pairs of words with the widyr package

Counting and correlating among sections

Pairwise correlation

Summary

Chapter 5 - converting to and from non-tidy formats

Tidying DocumentTermMatrix objects

Casting tidy text data into a matrix

Chapter 6, Topic modeling

Latent Dirichlet allocation

Additional topics

Zipf’s law in DNA sequence

Assignment for next week

About Quiz

Data Analysis and Visualization Lesson 11 Text Mining - Part 2

alper yilmaz

November 28th, 2017

Announcements

DataCamp status

Grade distribution

Text Mining, the Tidy Way, Part 2

Chapter 3 - word and document frequency - TF-IDF

The bind_tf_idf function

Chapter 4 - Relationship between words

Tokenizing by n-gram

Counting and filtering n-grams

Analyzing bigrams

Using bigrams to provide context in sentiment analysis

Visualizing a network of bigrams with ggraph

Visualizing bigrams in other texts

Counting and correlating pairs of words with the widyr package

Counting and correlating among sections

Pairwise correlation

Summary

Chapter 5 - converting to and from non-tidy formats

Tidying DocumentTermMatrix objects

Casting tidy text data into a matrix

Chapter 6, Topic modeling

Latent Dirichlet allocation

Additional topics

Zipf’s law in DNA sequence

Assignment for next week

About Quiz

The `bind_tf_idf` function