1. Einrichtung der Twitter-Schnittstelle

Für die Durchführung der Analysen wird ein Twitter-Account benötigt. Außerdem ist es notwendig, sich bei Twitter zu registrieren:

  1. Auf Sign in klicken, um sich mit dem eigenen Twitter-Account anzumelden
  2. Create App auswählen und die Felder entsprechend den Vorgaben ausfüllen. Bei dem Feld Callback URL diesen Wert einfügen: http://127.0.0.1:1410
  3. Die benötigten Zugangsdaten sind im Anschluss unter dem Reiter Keys and Access Tokens verfügbar
  4. Unter dem Feld Application Actions kann nun der benötigte Consumer Key und das Consumer Secret erzeugt werden

1.1 Benötigte R-Pakete installieren

Installation der benötigten R-Pakete.

install.packages(c("devtools", "rjson", "httr", "purr", "tidytext", "ggplot2", "stringr", "wordcloud", "reshape2"))
library(devtools)
install_github("geoffjentry/twitteR")

1.2 Twitter Zugriffsdaten einfügen

Wir fügen nun die Twitter-Zugriffsdaten aus Schritt 1 ein (die bereits eingefügten Werte sind Platzhalter). Die Daten sollten nun in R-Studio rechts oben im Global Environment unter Values aufgeführt sein.

api.key <-  'HWEPGcSOPjP9My3Wcz7wQqFnt'
api.secret <-  'qIpXYo1W8E6TRUAK7FyHAhAbIVYWwp5ORnPgCJCLNfTyYWMkZ8'
access.token <- '842728750160777217-qDctgf6P9PXUtOMdOGK1wQFgs1mWD82'
access.token.secret <- 'C9lqfzl5u6g4rKh8eZOcowvM5W8PGuKokTxxtXzzxvZJV'

Wenn das folgende Skript ausgeführt wird, erscheint in der Konsole diese Meldung: “Using browser based authentication” Use a local file (‘.httr-oauth’), to cache OAuth access credentials between R sessions? “1” auswählen und Enter drücken.

library(rjson)
library(httr)
library(twitteR)
setup_twitter_oauth(api.key,api.secret)
[1] "Using browser based authentication"

2.Text Mining mit R

2.1 Daten aus Twitter auslesen

Wir nutzen nun die userTimeline Funktion des twitteR Pakets um die 100 aktuellsten Tweets von Donald Trump zu laden. Damit wir damit arbeiten können, wandeln wir die Daten in einen Data Frame um.


library(dplyr)
library(purrr)

trump.tweets <- userTimeline("realDonaldTrump", n = 100)

trump.tweets.df <- tbl_df(map_df(trump.tweets, as.data.frame))

2.2 Text Mining mit tidytext

Die folgenden Inhalte orientieren sich an dem Buch Text Mining with R von Julia Silge und David Robinson. Dort finden Sie ausführliche Erklärungen zu allen folgenden Schritten.

2.2.1 Daten aus Twitter einlesen

Zuerst wird jedes Wort als einzelne Zeile in einem Data Frame (hier als trump.tweets.df2) abgespeichert.

library(tidytext)
trump.tweets.df2 <- trump.tweets.df %>%
  unnest_tokens(word, text)

2.2.2 Entfernung der Stoppwörter

Wir entfernen nun alle Stoppwörter (insb. Artikel und Konjunktionen), da diese für die Analysen irrelevant sind.

data(stop_words)
trump.tweets.df2 <- trump.tweets.df2 %>%
  anti_join(stop_words)
Joining, by = "word"

2.2.3 Analyse der Worthäufigkeiten

Nun könnne wir die häufigsten Wörter untersuchen.

trump.tweets.df2 %>%
  count(word, sort = TRUE)

2.2.4 Erweiterung der Stoppwörter

Wie wir sehen, kommen immer noch Wörter vor, die wir nicht analysieren möchten (z.B. https, t.co und amp). Diese werden nun in den Katalog der Stoppwörter mit aufgenommen. Wir erzeugen dafür einen neuen Katalog (custom.stop.words), welcher die ursprünglichen Stoppwörter (stop_words) und die von uns definierten Stoppwörter umfasst.

custom.stop.words <- bind_rows(data_frame(word = c("https", "t.co", "amp"), 
                                          lexicon = c("custom", "custom", "custom")),
                               stop_words)
trump.tweets.df2 <- trump.tweets.df2 %>%
  anti_join(custom.stop.words)
Joining, by = "word"
head(custom.stop.words)

2.2.5 Visualisierung der Worthäufigkeiten.

Visualisierung der Worthäufigkeiten mit ggplot2.

library(ggplot2)
trump.tweets.df2 %>%
  count(word, sort = TRUE) %>%
  filter(n > 5) %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n)) +
  geom_col() +
  xlab(NULL) +
  coord_flip()

2.2.6 Sentimentanalyse

2.2.6.1 Postitive Wörter

Nutzung des NRC-Lexikon, um die positiven Wörter in den Tweets zu bestimmen.

library(stringr)
nrc.positive <- get_sentiments("nrc") %>% 
  filter(sentiment == "positive")
trump.tweets.df2 %>%
  inner_join(nrc.positive) %>%
  count(word, sort = TRUE)
Joining, by = "word"

2.2.6.2 Negative Wörter

Die gleiche Vorgehensweise können wir für negative Wörter nutzen.

nrc.negative <- get_sentiments("nrc") %>% 
  filter(sentiment == "negative")
trump.tweets.df2 %>%
  inner_join(nrc.negative) %>%
  count(word, sort = TRUE)
Joining, by = "word"

2.2.7 Übersicht über positive und negative Wörter

Wir nutzen nun das Bing-Lexikon um sowohl positive als auch negative Wörter in einer Tabelle anzeigen zu lassen.

bing.word.counts <- trump.tweets.df2 %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  ungroup()
Joining, by = "word"
bing.word.counts

2.2.8 Visualisierung der Sentimentanalyse mit Balkendiagrammen

Visualisierung der Sentimentanalyse mit ggplot2.

bing.word.counts %>%
  group_by(sentiment) %>%
  top_n(10) %>%
  ungroup() %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n, fill = sentiment)) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~sentiment, scales = "free_y") +
  labs(y = "Contribution to sentiment",
       x = NULL) +
  coord_flip()
Selecting by n

2.2.9 Visualisierung der Sentimentanalyse mit Wortwolken

Visualisierung der Sentinemtanalyse mit einer Wortwolke.

library(wordcloud)
Lade nötiges Paket: RColorBrewer
trump.tweets.df2 %>%
  anti_join(stop_words) %>%
  anti_join(custom.stop.words) %>% 
  count(word) %>%
  with(wordcloud(word, n, max.words = 10))
Joining, by = "word"
Joining, by = "word"

Unterteilung der Wortwolke in negative und positive Wörter.

library(reshape2)
trump.tweets.df2 %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  acast(word ~ sentiment, value.var = "n", fill = 0) %>%
  comparison.cloud(colors = c("#F8766D", "#00BFC4"),
                   max.words = 30)
Joining, by = "word"

---
title: 'Text Mining: Twitter Datenanalyse mit R'
author: "Prof. Dr. Jan Kirenz, Hochschule der Medien Stuttgart"
output:
  html_notebook: default
  html_document: default
---


# 1. Einrichtung der Twitter-Schnittstelle

Für die Durchführung der Analysen wird ein Twitter-Account benötigt. 
Außerdem ist es notwendig, sich bei Twitter zu [registrieren](https://apps.twitter.com):
  
1. Auf *Sign in* klicken, um sich mit dem eigenen Twitter-Account anzumelden 
2. *Create App* auswählen und die Felder entsprechend den Vorgaben ausfüllen. Bei dem Feld *Callback URL* diesen Wert einfügen: http://127.0.0.1:1410 
4. Die benötigten Zugangsdaten sind im Anschluss unter dem Reiter *Keys and Access Tokens* verfügbar 
3. Unter dem Feld *Application Actions* kann nun der benötigte Consumer Key und das Consumer Secret erzeugt werden         

## 1.1 Benötigte R-Pakete installieren

Installation der benötigten R-Pakete. 

```{r}
install.packages(c("devtools", "rjson", "httr", "purr", "tidytext", "ggplot2", "stringr", "wordcloud", "reshape2"))
library(devtools)
install_github("geoffjentry/twitteR")

```

## 1.2 Twitter Zugriffsdaten einfügen

Wir fügen nun die Twitter-Zugriffsdaten aus Schritt 1 ein (die bereits eingefügten Werte sind Platzhalter). 
Die Daten sollten nun in *R-Studio* rechts oben im *Global Environment* unter Values aufgeführt sein.

```{r}

api.key <-  'HWEPGcSOPjP9My3Wcz7wQqFnt'
api.secret <-  'qIpXYo1W8E6TRUAK7FyHAhAbIVYWwp5ORnPgCJCLNfTyYWMkZ8'
access.token <- '842728750160777217-qDctgf6P9PXUtOMdOGK1wQFgs1mWD82'
access.token.secret <- 'C9lqfzl5u6g4rKh8eZOcowvM5W8PGuKokTxxtXzzxvZJV'

```

Wenn das folgende Skript ausgeführt wird, erscheint in der Konsole diese Meldung: "Using browser based authentication" Use a local file ('.httr-oauth'), to cache OAuth access credentials between R sessions? "1" auswählen und Enter drücken. 

```{r}

library(rjson)
library(httr)
library(twitteR)

setup_twitter_oauth(api.key,api.secret)

```

# 2.Text Mining mit R

## 2.1 Daten aus Twitter auslesen

Wir nutzen nun die *userTimeline* Funktion des twitteR Pakets um die 100 aktuellsten Tweets von Donald Trump zu laden. 
Damit wir damit arbeiten können, wandeln wir die Daten in einen [Data Frame](http://www.r-tutor.com/r-introduction/data-frame) um.

```{r}

library(dplyr)
library(purrr)

trump.tweets <- userTimeline("realDonaldTrump", n = 100)

trump.tweets.df <- tbl_df(map_df(trump.tweets, as.data.frame))


```

## 2.2 Text Mining mit tidytext

Die folgenden Inhalte orientieren sich an dem Buch [Text Mining with R](http://tidytextmining.com/index.html) von Julia Silge und David Robinson. Dort finden Sie ausführliche Erklärungen zu allen folgenden Schritten.

### 2.2.1 Daten aus Twitter einlesen

Zuerst wird jedes Wort als einzelne Zeile in einem Data Frame (hier als trump.tweets.df2) abgespeichert.

```{r}
library(tidytext)

trump.tweets.df2 <- trump.tweets.df %>%
  unnest_tokens(word, text)

```

### 2.2.2 Entfernung der Stoppwörter

Wir entfernen nun alle Stoppwörter (insb. Artikel und Konjunktionen), da diese für die Analysen irrelevant sind.  

```{r}

data(stop_words)

trump.tweets.df2 <- trump.tweets.df2 %>%
  anti_join(stop_words)

```

### 2.2.3 Analyse der Worthäufigkeiten

Nun könnne wir die häufigsten Wörter untersuchen.

```{r}
trump.tweets.df2 %>%
  count(word, sort = TRUE)

```

### 2.2.4 Erweiterung der Stoppwörter

Wie wir sehen, kommen immer noch Wörter vor, die wir nicht analysieren möchten (z.B. https, t.co und amp). 
Diese werden nun in den Katalog der Stoppwörter mit aufgenommen. Wir erzeugen dafür einen neuen Katalog (custom.stop.words), 
welcher die ursprünglichen Stoppwörter (stop_words) und die von uns definierten Stoppwörter umfasst. 

```{r}

custom.stop.words <- bind_rows(data_frame(word = c("https", "t.co", "amp"), 
                                          lexicon = c("custom", "custom", "custom")),
                               stop_words)

trump.tweets.df2 <- trump.tweets.df2 %>%
  anti_join(custom.stop.words)

head(custom.stop.words)

```

### 2.2.5 Visualisierung der Worthäufigkeiten.

Visualisierung der Worthäufigkeiten mit *ggplot2*.

```{r}

library(ggplot2)

trump.tweets.df2 %>%
  count(word, sort = TRUE) %>%
  filter(n > 5) %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n)) +
  geom_col() +
  xlab(NULL) +
  coord_flip()

```

### 2.2.6 Sentimentanalyse

#### 2.2.6.1 Postitive Wörter

Nutzung des [NRC-Lexikon](http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm), um die positiven Wörter in den 
Tweets zu bestimmen.


```{r}

library(stringr)

nrc.positive <- get_sentiments("nrc") %>% 
  filter(sentiment == "positive")

trump.tweets.df2 %>%
  inner_join(nrc.positive) %>%
  count(word, sort = TRUE)

```

#### 2.2.6.2 Negative Wörter

Die gleiche Vorgehensweise können wir für negative Wörter nutzen.

```{r}

nrc.negative <- get_sentiments("nrc") %>% 
  filter(sentiment == "negative")

trump.tweets.df2 %>%
  inner_join(nrc.negative) %>%
  count(word, sort = TRUE)

```

### 2.2.7 Übersicht über positive und negative Wörter

Wir nutzen nun das [Bing-Lexikon](https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html) um sowohl positive als auch 
negative Wörter in einer Tabelle anzeigen zu lassen.

```{r}

bing.word.counts <- trump.tweets.df2 %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  ungroup()

bing.word.counts

```

### 2.2.8 Visualisierung der Sentimentanalyse mit Balkendiagrammen

Visualisierung der Sentimentanalyse mit *ggplot2*.


```{r}

bing.word.counts %>%
  group_by(sentiment) %>%
  top_n(10) %>%
  ungroup() %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n, fill = sentiment)) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~sentiment, scales = "free_y") +
  labs(y = "Contribution to sentiment",
       x = NULL) +
  coord_flip()

```

### 2.2.9 Visualisierung der Sentimentanalyse mit Wortwolken

Visualisierung der Sentinemtanalyse mit einer Wortwolke.

```{r}
library(wordcloud)

trump.tweets.df2 %>%
  anti_join(stop_words) %>%
  anti_join(custom.stop.words) %>% 
  count(word) %>%
  with(wordcloud(word, n, max.words = 10))

```

Unterteilung der Wortwolke in negative und positive Wörter.

```{r}
library(reshape2)

trump.tweets.df2 %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  acast(word ~ sentiment, value.var = "n", fill = 0) %>%
  comparison.cloud(colors = c("#F8766D", "#00BFC4"),
                   max.words = 30)
```

