At-Taubah, surat ke-9 dalam Kitab Suci Al-Quran, merupakan satu-satunya surat yang tidak diawali dengan kata basmalah. Allah swt tentunya menciptakan ini bukan tanpa makna. Ayat pertama surat ini mungkin dapat memberikan gambaran mengapa Allah swt tidak menempatkan kata basmallah sebagai pengawal surat.
“(Inilah pernyataan) pemutusan hubungan dari Allah dan Rasul-Nya kepada orang-orang musyrik…”
Lalu bagaimanakah gambaran umum dari surat ini ditinjau dari pendekatan ‘text mining’? Kita akan coba melakukan text mining secara sederhana. Untuk melakukannya, diambil sumber berbahasa Inggris (agar sesuai dengan konteks software yang digunakan) dari https://www.helloquran.com/9
Library dan Laman Web
Untuk dapat melakukan text mining, diperlukan beberapa library sebagaimana berikut
pacman::p_load(rvest, dplyr, ggplot2, gridExtra, tidytext, tm, knitr,
kableExtra, formattable, tibble, wordcloud2, topicmodels,
tidyr, syuzhet)
Kemudian untuk memilih bagian mana dalam web yang secara spesifik akan diteliti, kita dapat menggunakan extension Chrome ‘SelectorGadget’. Dengan menggunakan ‘SelectorGadget’ tersebut kita dapat memilih bagian tertentu pada web yang nantinya akan secara otomatis mendeteksi informasi serupa dalam web. Kode yang diperoleh dari SelectorGadget tersebut (dihasilkan dari kotak di bawah webpage) kemudian dimasukkan ke dalam sytax sebagai berikut (dalam web ini misalnya, kode yang diperoleh adalah “.jss12”):
link <- "https://www.helloquran.com/9"
web <- read_html(link)
taubah <- web %>% html_nodes(".jss12") %>% html_text()
df.taubah <- data.frame(taubah, stringsAsFactors = FALSE)
Preprocessing
Tahapan selanjutnya dalam melakukan text processing yaitu ‘pembersihan’ atau text cleaning. Tujuan dari tahapan ini adalah untuk menghasilkan text utama tanpa ornamen seperti singkatan, spesial karakter, ataupun angka. Pertama kita ingin menyempurnakan kata apabila ada contraction seperti can’t -> can not; won’t -> will not, dan lain-lain:
slang <- function(doc) {
doc <- gsub("won't", "will not", doc)
doc <- gsub("can't", "can not", doc)
doc <- gsub("n't", " not", doc)
doc <- gsub("'ll", " will", doc)
doc <- gsub("'re", " are", doc)
doc <- gsub("'ve", " have", doc)
doc <- gsub("'m", " am", doc)
doc <- gsub("'d", " would", doc)
doc <- gsub("'s", "", doc)
return(doc)
}
df.taubah$taubah <- sapply(df.taubah$taubah, slang)
Kemudian kita perlu menghilangkan karakter khusus, mengubah semua huruf menjadi lowercase, dan menghilangkan nomor dalam kalimat.
karakterspesial <- function(x) gsub("[^a-zA-Z0-9 ]", " ", x)
df.taubah$taubah <- sapply(df.taubah$taubah, karakterspesial)
df.taubah$taubah <- sapply(df.taubah$taubah, tolower)
angka <- function(x) gsub("[0-9]+", " ", x)
df.taubah$taubah <- sapply(df.taubah$taubah, angka)
Proses text cleaning dirasa cukup karena sudah menghasilkan text utama yang mudah dicerna. Sebagai contoh misalkan kita ingin mengetahui Ayat ke-10 hasil preprocessing sebagai berikut:
str(df.taubah[10,], nchar.max = 300)
chr " towards a believer they respect neither kinship nor treaty these are the offenders "
Text Mining
Kita memasuki tahapan utama yaitu text mining. Pertama kita akan menghilangkan stopword bahasa inggris terlebih dahulu dan membatasi analisis kata dengan minimal terdiri dari 3 huruf (jadi kata-kata seperti ‘us’ tidak dilibatkan dalam analisis).
df.taubah$ayat <- 1:nrow(df.taubah)
filtrasi_kata <- df.taubah %>%
unnest_tokens(word, taubah) %>%
anti_join(stop_words) %>%
distinct() %>%
filter(nchar(word) > 2)
Joining, by = "word"
Selanjutnya, dari hasil tersebut kita dapat mendeteksi sebuah kata terdapat pada bagian (ayat) mana saja dalam surat. Misalnya kita ingin melihat kata “punishment” - azab, dalam surat At-Taubah itu terdapat pada ayat berapa saja
options(warn = -1)
filtrasi_kata %>%
filter(word == "punishment") %>%
select(word, ayat) %>%
arrange() %>%
top_n(10,ayat) %>%
mutate(ayat = color_tile("dodgerblue2","dodgerblue2")(ayat)) %>%
mutate(word = color_tile("seagreen3","seagreen3")(word)) %>%
kable("html", escape = FALSE, align = "c",
caption = "Kata 'Punishment' dalam Surat At-Taubah") %>%
kable_styling(bootstrap_options = c("striped", "condensed", "bordered"),
full_width = FALSE)
Kata 'Punishment' dalam Surat At-Taubah
| word |
ayat |
| punishment |
3 |
| punishment |
34 |
| punishment |
52 |
| punishment |
61 |
| punishment |
68 |
| punishment |
74 |
| punishment |
79 |
| punishment |
90 |
Kata ‘punishment’ atau azab ternyata diulang 8 kali dalam surat At-Taubah. Kita pun dapat mencari kata-kata lain sesuai dengan intensi.
Selanjutnya misalnya kita ingin mengetahui top-10 ayat dengan jumlah kata terbanyak dalam surat At-Taubah.
hitung_kata <- df.taubah %>%
unnest_tokens(word, taubah) %>%
group_by(ayat) %>%
summarise(num_words = n()) %>%
arrange(desc(num_words))
hitung_kata[1:10,] %>%
mutate(num_words = color_tile ("plum4","plum4")(num_words)) %>%
mutate(ayat = color_tile("lightseagreen","lightseagreen")(ayat)) %>%
kable("html", escape = FALSE, align = "c", caption = "Banyaknya Jumlah Kata dalam Ayat") %>%
kable_styling(bootstrap_options =
c("striped", "condensed", "bordered"),
full_width = FALSE)
Banyaknya Jumlah Kata dalam Ayat
| ayat |
num_words |
| 74 |
87 |
| 40 |
81 |
| 120 |
81 |
| 111 |
65 |
| 69 |
63 |
| 94 |
62 |
| 118 |
60 |
| 36 |
59 |
| 3 |
58 |
| 37 |
56 |
NA
Dari analisis tersebut, diperoleh ayat ke-74 memiliki jumlah kata (utama/inti) paling banyak sejumlah 87 kata diikuti oleh ayat ke-40 dengan 81 susunan kata.
Selain dari jumlah kata dalam satu ayat, kita juga dapat mengetahui kata top-20 ‘populer’ dalam surat At-Taubah
filtrasi_kata %>%
count(word, sort = TRUE) %>%
top_n(20) %>%
ungroup() %>%
mutate(word = reorder(word, n)) %>%
ggplot() + theme_bw() +
geom_col(aes(word, n), fill = "lightcoral") +
theme(legend.position = "none",
plot.title = element_text(hjust = 0.5),
panel.grid.major = element_blank()) +
xlab("") +
ylab("Jumlah Ayat") +
ggtitle("Top 20: Kata Paling Banyak Muncul dalam Surat At-Taubah") +
coord_flip()
Selecting by n

Dari bar chart tersebut dapat dilihat bahwa kata God menjadi kata paling banyak disebut (tentunya). Selanjutnya adalah kata ‘mesenger’ atau rasul/nabi, kemudian ‘people’ atau manusia, dan ‘believers’ atau orang-orang beriman. Yang menarik adalah terdapat kata ‘fight’ dalam top-10 kata paling banyak disebut. Apabila melihat pada terjemahan Indonesia, kata ‘fight’ diartikan sebagai perang. Seperti misalkan potongan dalam ayat ke-14 yang berbunyi “Perangilah mereka…”
Banyak munculnya kata ‘perang’ ini mungkin menjadi salah satu alasan mengapa permulaan At-Taubah tidak diawali dengan kata Basmalah.
Visualisasi Hasil
Tahapan selanjutnya, agar lebih menarik kita bisa membuat bentuk wordcloud dari kata-kata yang sering muncul dalam surat At-Taubah sebagai berikut:
wordcloud_taubah <- filtrasi_kata %>%
count(word, sort = TRUE)
wordcloud2(wordcloud_taubah[1:661,], size = 1, color = "random-light",
shape = "circle", backgroundColor = "gray32")
Selanjutnya, kita ingin melihat diversity dari leksikal/vocabulary yang ada dalam surat ini berdasarkan ayat.
leksikal <- df.taubah %>%
unnest_tokens(word, taubah) %>%
group_by(ayat) %>%
summarise(lex_diversity = n_distinct(word)) %>%
arrange(desc(lex_diversity))
diversity_plot <- leksikal %>%
ggplot(aes(ayat, lex_diversity)) +
geom_point(color = "sienna1",
alpha = .6,
size = 4,
position = "jitter") +
stat_smooth(color = "turquoise1", se = FALSE, method = "lm") +
geom_smooth(aes(x = ayat, y = lex_diversity), se = FALSE,
color = "olivedrab1", lwd = 1) +
ggtitle("Keragaman Kosakata") +
xlab("Ayat") +
ylab("Keragaman") +
theme_dark()
diversity_plot
`geom_smooth()` using formula 'y ~ x'
`geom_smooth()` using method = 'loess' and formula 'y ~ x'

Dari gambar tersebut dapat dilihat bahwa keragaman leksikal yang digunakan stabil dari ayat pertama sampai dengan terakhir.
Topic Modelling
Untuk melengkapi proses text mining, analisis selanjutnya kita ingin melakukan topic modelling (pengelompokkan kata-kata berdasarkan topik tertentu secara otomatis).
text_taubah <- VCorpus(VectorSource(filtrasi_kata$word))
text_taubah <- DocumentTermMatrix(text_taubah)
text_taubah
<<DocumentTermMatrix (documents: 1281, terms: 661)>>
Non-/sparse entries: 1281/845460
Sparsity : 100%
Maximal term length: 13
Weighting : term frequency (tf)
Misalnya kita ingin mengetahui kata yang muncul minimal 10 kali dalam surat At-Taubah
findFreqTerms(text_taubah, lowfreq = 10)
[1] "believers" "day" "fight" "god" "hearts" "messenger"
[7] "people" "wealth"
Kemudian kita ingin melakukan pengelompokkan topik dengan enam kategori:
lda_taubah <- LDA(text_taubah, k = 4, method = "Gibbs",
control = list(seed = 1407))
taubah_topics <- tidy(lda_taubah, matrix = "beta")
taubah_top_terms <- taubah_topics %>%
group_by(topic) %>%
slice_max(beta, n = 6) %>%
ungroup() %>%
arrange(topic, -beta)
taubah_top_terms %>%
mutate(term = reorder_within(term, beta, topic)) %>%
ggplot(aes(beta, term, fill = factor(topic))) +
geom_col(show.legend = FALSE) +
facet_wrap(~ topic, scales = "free") + scale_y_reordered()

coord_flip()
<ggproto object: Class CoordFlip, CoordCartesian, Coord, gg>
aspect: function
backtransform_range: function
clip: on
default: FALSE
distance: function
expand: TRUE
is_free: function
is_linear: function
labels: function
limits: list
modify_scales: function
range: function
render_axis_h: function
render_axis_v: function
render_bg: function
render_fg: function
setup_data: function
setup_layout: function
setup_panel_guides: function
setup_panel_params: function
setup_params: function
train_panel_guides: function
transform: function
super: <ggproto object: Class CoordFlip, CoordCartesian, Coord, gg>
Sentiment Analysis
Terakhir, kita ingin melihat/membentuk analisis sentimen dari kata-kata yang ada dalam surat At-Taubah sebagai berikut
taubah_sentimen <- iconv(df.taubah$taubah, to = "utf-8")
taubah_sentimen <- get_nrc_sentiment(taubah_sentimen)
barplot(colSums(taubah_sentimen),
las = 2,
col = rainbow(10),
ylab = 'Frekuensi',
main = 'Sentimen')

Apabila dilihat pada bar chart tersebut, sentimen paling dominan adalah tone positif, trust, dan fear. Menarik melihat ada sentimen ‘fear’ yang cukup dominan disini. Sentimen ini jelas bukan menunjukkan kondisi yang sebenarnya, hanya sebuah pendekatan dari sistem murni berdasarkan kata tanpa melihat konteks maupun struktur kata secara utuh.
End
---
title: "Repentance: Simple Text Mining with R"
output: html_notebook
---

At-Taubah, surat ke-9 dalam Kitab Suci Al-Quran, merupakan satu-satunya surat yang tidak diawali dengan kata basmalah. Allah swt tentunya menciptakan ini bukan tanpa makna. Ayat pertama surat ini mungkin dapat memberikan gambaran mengapa Allah swt tidak menempatkan kata basmallah sebagai pengawal surat. 

_"(Inilah pernyataan) pemutusan hubungan dari Allah dan Rasul-Nya kepada orang-orang musyrik..."_

Lalu bagaimanakah gambaran umum dari surat ini ditinjau dari pendekatan 'text mining'? Kita akan coba melakukan text mining secara sederhana. Untuk melakukannya, diambil sumber berbahasa Inggris (agar sesuai dengan konteks software yang digunakan) dari https://www.helloquran.com/9 

-------

### Library dan Laman Web

Untuk dapat melakukan text mining, diperlukan beberapa library sebagaimana berikut

```{r}
pacman::p_load(rvest, dplyr, ggplot2, gridExtra, tidytext, tm, knitr,
               kableExtra, formattable, tibble, wordcloud2, topicmodels,
               tidyr, syuzhet)
```

Kemudian untuk memilih bagian mana dalam web yang secara spesifik akan diteliti, kita dapat menggunakan extension Chrome 'SelectorGadget'. Dengan menggunakan 'SelectorGadget' tersebut kita dapat memilih bagian tertentu pada web yang nantinya akan secara otomatis mendeteksi informasi serupa dalam web. Kode yang diperoleh dari SelectorGadget tersebut (dihasilkan dari kotak di bawah webpage) kemudian dimasukkan ke dalam sytax sebagai berikut (dalam web ini misalnya, kode yang diperoleh adalah **".jss12"**):


```{r}
link <- "https://www.helloquran.com/9"
web <- read_html(link)
taubah <- web %>% html_nodes(".jss12") %>% html_text()
df.taubah <- data.frame(taubah, stringsAsFactors = FALSE)
```


--------

### Preprocessing

Tahapan selanjutnya dalam melakukan text processing yaitu 'pembersihan' atau text cleaning. Tujuan dari tahapan ini adalah untuk menghasilkan text utama tanpa ornamen seperti singkatan, spesial karakter, ataupun angka. Pertama kita ingin menyempurnakan kata apabila ada contraction seperti can't -> can not; won't -> will not, dan lain-lain:

```{r}
slang <- function(doc) {
  doc <- gsub("won't", "will not", doc)
  doc <- gsub("can't", "can not", doc)
  doc <- gsub("n't", " not", doc)
  doc <- gsub("'ll", " will", doc)
  doc <- gsub("'re", " are", doc)
  doc <- gsub("'ve", " have", doc)
  doc <- gsub("'m", " am", doc)
  doc <- gsub("'d", " would", doc)
  doc <- gsub("'s", "", doc)
  return(doc)
}

df.taubah$taubah <- sapply(df.taubah$taubah, slang)
```


Kemudian kita perlu menghilangkan karakter khusus, mengubah semua huruf menjadi lowercase, dan menghilangkan nomor dalam kalimat.


```{r}
karakterspesial <- function(x) gsub("[^a-zA-Z0-9 ]", " ", x)

df.taubah$taubah <- sapply(df.taubah$taubah, karakterspesial)
df.taubah$taubah <- sapply(df.taubah$taubah, tolower)

angka <- function(x) gsub("[0-9]+", " ", x)
df.taubah$taubah <- sapply(df.taubah$taubah, angka)

```


Proses text cleaning dirasa cukup karena sudah menghasilkan text utama yang mudah dicerna. Sebagai contoh misalkan kita ingin mengetahui Ayat ke-10 hasil preprocessing sebagai berikut:


```{r}
str(df.taubah[10,], nchar.max = 300)
```


--------

### Text Mining


Kita memasuki tahapan utama yaitu text mining. Pertama kita akan menghilangkan stopword bahasa inggris terlebih dahulu dan membatasi analisis kata dengan minimal terdiri dari 3 huruf (jadi kata-kata seperti 'us' tidak dilibatkan dalam analisis).


```{r}
df.taubah$ayat <- 1:nrow(df.taubah)

filtrasi_kata <- df.taubah %>%
  unnest_tokens(word, taubah) %>%
  anti_join(stop_words) %>%
  distinct() %>%
  filter(nchar(word) > 2)
```

Selanjutnya, dari hasil tersebut kita dapat mendeteksi sebuah kata terdapat pada bagian (ayat) mana saja dalam surat. Misalnya kita ingin melihat kata **"punishment" - azab**, dalam surat At-Taubah itu terdapat pada ayat berapa saja

```{r}

options(warn = -1)

filtrasi_kata %>% 
  filter(word == "punishment") %>%
  select(word, ayat) %>%
  arrange() %>%
  top_n(10,ayat) %>%
  mutate(ayat = color_tile("dodgerblue2","dodgerblue2")(ayat)) %>%
  mutate(word = color_tile("seagreen3","seagreen3")(word)) %>%
  kable("html", escape = FALSE, align = "c",
        caption = "Kata 'Punishment' dalam Surat At-Taubah") %>%
  kable_styling(bootstrap_options = c("striped", "condensed", "bordered"), 
                full_width = FALSE)
```

Kata 'punishment' atau azab ternyata diulang 8 kali dalam surat At-Taubah. Kita pun dapat mencari kata-kata lain sesuai dengan intensi.


Selanjutnya misalnya kita ingin mengetahui top-10 ayat dengan jumlah kata terbanyak dalam surat At-Taubah.

```{r}

hitung_kata <- df.taubah %>%
  unnest_tokens(word, taubah) %>%
  group_by(ayat) %>%
  summarise(num_words = n()) %>%
  arrange(desc(num_words)) 


hitung_kata[1:10,] %>%
  mutate(num_words = color_tile ("plum4","plum4")(num_words)) %>%
  mutate(ayat = color_tile("lightseagreen","lightseagreen")(ayat)) %>%
  kable("html", escape = FALSE, align = "c", caption = "Banyaknya Jumlah Kata dalam Ayat") %>%
  kable_styling(bootstrap_options = 
                  c("striped", "condensed", "bordered"), 
                full_width = FALSE)

```

Dari analisis tersebut, diperoleh ayat ke-74 memiliki jumlah kata (utama/inti) paling banyak sejumlah 87 kata diikuti oleh ayat ke-40 dengan 81 susunan kata.

Selain dari jumlah kata dalam satu ayat, kita juga dapat mengetahui kata top-20  'populer' dalam surat At-Taubah

```{r}
filtrasi_kata %>%
  count(word, sort = TRUE) %>%
  top_n(20) %>%
  ungroup() %>%
  mutate(word = reorder(word, n)) %>%
  ggplot() + theme_bw() +
  geom_col(aes(word, n), fill = "lightcoral") +
  theme(legend.position = "none", 
        plot.title = element_text(hjust = 0.5),
        panel.grid.major = element_blank()) +
  xlab("") + 
  ylab("Jumlah Ayat") +
  ggtitle("Top 20: Kata Paling Banyak Muncul dalam Surat At-Taubah") +
  coord_flip()
```

Dari bar chart tersebut dapat dilihat bahwa kata God menjadi kata paling banyak disebut (tentunya). Selanjutnya adalah kata 'mesenger' atau rasul/nabi, kemudian 'people' atau manusia, dan 'believers' atau orang-orang beriman. Yang menarik adalah terdapat kata 'fight' dalam top-10 kata paling banyak disebut. Apabila melihat pada terjemahan Indonesia, kata 'fight' diartikan sebagai perang. Seperti misalkan potongan dalam ayat ke-14 yang berbunyi _"Perangilah mereka..."_

> Banyak munculnya kata 'perang' ini mungkin menjadi salah satu alasan mengapa permulaan At-Taubah tidak diawali dengan kata Basmalah.

------

### Visualisasi Hasil

Tahapan selanjutnya, agar lebih menarik kita bisa membuat bentuk wordcloud dari kata-kata yang sering muncul dalam surat At-Taubah sebagai berikut:

```{r}

wordcloud_taubah <- filtrasi_kata %>%
  count(word, sort = TRUE) 

wordcloud2(wordcloud_taubah[1:661,], size = 1,  color = "random-light", 
           shape = "circle", backgroundColor = "gray32")
```


Selanjutnya, kita ingin melihat diversity dari leksikal/vocabulary yang ada dalam surat ini berdasarkan ayat.

```{r}

leksikal <- df.taubah %>%
  unnest_tokens(word, taubah) %>%
  group_by(ayat) %>%
  summarise(lex_diversity = n_distinct(word)) %>%
  arrange(desc(lex_diversity)) 

diversity_plot <- leksikal %>%
  ggplot(aes(ayat, lex_diversity)) +
  geom_point(color = "sienna1",
             alpha = .6, 
             size = 4, 
             position = "jitter") + 
  stat_smooth(color = "turquoise1", se = FALSE, method = "lm") +
  geom_smooth(aes(x = ayat, y = lex_diversity), se = FALSE,
              color = "olivedrab1", lwd = 1) +
  ggtitle("Keragaman Kosakata") +
  xlab("Ayat") + 
  ylab("Keragaman") +
  theme_dark()

diversity_plot

```


Dari gambar tersebut dapat dilihat bahwa keragaman leksikal yang digunakan stabil dari ayat pertama sampai dengan terakhir.


-------

### Topic Modelling

Untuk melengkapi proses text mining, analisis selanjutnya kita ingin melakukan topic modelling (pengelompokkan kata-kata berdasarkan topik tertentu secara otomatis). 

```{r}
text_taubah <- VCorpus(VectorSource(filtrasi_kata$word))
text_taubah <- DocumentTermMatrix(text_taubah)
text_taubah
```

Misalnya kita ingin mengetahui kata yang muncul minimal 10 kali dalam surat At-Taubah

```{r}
findFreqTerms(text_taubah, lowfreq = 10)
```

Kemudian kita ingin melakukan pengelompokkan topik dengan enam kategori:


```{r}
lda_taubah <- LDA(text_taubah, k = 4, method = "Gibbs",
                  control = list(seed = 1407))
taubah_topics <- tidy(lda_taubah, matrix = "beta")

taubah_top_terms <- taubah_topics %>%
  group_by(topic) %>%
  slice_max(beta, n = 6) %>% 
  ungroup() %>%
  arrange(topic, -beta)

taubah_top_terms %>%
  mutate(term = reorder_within(term, beta, topic)) %>%
  ggplot(aes(beta, term, fill = factor(topic))) +
  geom_col(show.legend = FALSE) +
  facet_wrap(~ topic, scales = "free") + scale_y_reordered()
  coord_flip()
```


------

### Sentiment Analysis

Terakhir, kita ingin melihat/membentuk analisis sentimen dari kata-kata yang ada dalam surat At-Taubah sebagai berikut

```{r}
taubah_sentimen <- iconv(df.taubah$taubah, to = "utf-8")
taubah_sentimen <- get_nrc_sentiment(taubah_sentimen)

barplot(colSums(taubah_sentimen),
        las = 2,
        col = rainbow(10),
        ylab = 'Frekuensi',
        main = 'Sentimen')
```

Apabila dilihat pada bar chart tersebut, sentimen paling dominan adalah tone positif, trust, dan fear. Menarik melihat ada sentimen 'fear' yang cukup dominan disini. Sentimen ini jelas bukan menunjukkan kondisi yang sebenarnya, hanya sebuah pendekatan dari sistem murni berdasarkan kata tanpa melihat konteks maupun struktur kata secara utuh.

-------

### End

