Memuat Packages and Library
packages=c('dplyr', 'tidyverse', 'tidytext', 'ggplot2', 'ggraph', 'knitr', 'quRan')
for (p in packages){
if (! require (p,character.only = T)){
install.packages(p)
}
library(p,character.only = T)
}
Sebelum kita memuat data, mari kita mulai dengan terjemahan bahasa inggris dari surat pertama Al-Qur’an yakni surat Al-Fatihah. Terjemahan ini menggunakan terjemahan Bahasa Inggris dari Dr. Mustafa Khattab, the Clear Quran. Untuk lebih jelasnya bisa dilihat di https://quran.com/1
text <- c("In the Name of Allah—the Most Compassionate, Most Merciful.",
"All praise is for Allah—Lord of all worlds,",
"the Most Compassionate, Most Merciful,",
"Master of the Day of Judgment.",
"You ˹alone˺ we worship and You ˹alone˺ we ask for help.",
"Guide us along the Straight Path,",
"the Path of those You have blessed—not those You are displeased with, or those who are astray.")
text
[1] "In the Name of Allah—the Most Compassionate, Most Merciful."
[2] "All praise is for Allah—Lord of all worlds,"
[3] "the Most Compassionate, Most Merciful,"
[4] "Master of the Day of Judgment."
[5] "You ⾚lone˺ we worship and You ⾚lone˺ we ask for help."
[6] "Guide us along the Straight Path,"
[7] "the Path of those You have blessed—not those You are displeased with, or those who are astray."
Pertama-tama kita perlu memasukkannya ke dalam data frame untuk membuatnya menjadi kumpulan dataset text yang rapi.
text_df <- tibble(line = 1:7, text = text)
text_df
Tibble adalah modern class dari data frame dalam R, tersedia dalam packages dplyr dan tibble. Tibbles sangat bagus untuk digunakan dengan tidy tools.
Perhatikan bahwa data frame yang berisi teks ini belum kompatibel dengan analisis teks yang rapi. Kami tidak dapat menyaring kata atau menghitung yang paling sering muncul, karena setiap baris terdiri dari beberapa kata gabungan. Kita perlu mengonversi terlebih dahulu sehingga memiliki satu-token-per-dokumen-per-baris.
Token adalah unit teks yang bermakna, paling sering berupa kata, yang bisa digunakan untuk analisis lebih lanjut, dan tokenisasi adalah proses pemisahan teks menjadi token.
Dalam contoh pertama ini, kita hanya memiliki satu dokumen (Al-Fatihah), tetapi kita akan mengeksplorasi contoh dengan banyak dokumen (Surat).
Dalam kerangka teks rapi kita, kita perlu memecah teks menjadi token individu (proses yang disebut tokenization) dan mengubahnya menjadi struktur data yang rapi. * Gunakan fungsi unnest_tokens() tidytext.
text_df %>%
unnest_tokens(word, text)
Setelah menggunakan unnest_tokens, ada satu token (kata) di setiap baris dari frame data baru; tokenization default di unnest_tokens() adalah untuk kata tunggal. Kolom lain, seperti nomor baris dari setiap kata, dipertahankan. Tanda baca telah dihilangkan.Secara default, unnest_tokens() mengonversi token menjadi huruf kecil, yang membuatnya lebih mudah untuk dibandingkan atau digabungkan dengan kumpulan data lainnya. (Gunakan argumen to_lower = FALSE untuk mematikan fitur ini). Sekarang kita dapat memanipulasi, memproses, dan memvisualisasikan teks menggunakan alat standar tidy tools, yaitu dplyr, rapir, dan ggplot2
Fokus pada versi dan Variabel Quran yang Dipilih Paket quran memiliki 4 versi quran. Ini memberikan ayat-ayat penuh Al-Qur’an, dalam bingkai data yang berisi satu baris per ayat, diformat agar nyaman untuk analisis teks. dari ) dan di , .
quran_ar (Quran dalam bahasa Arab dengan vokal) quran_ar_min (Quran dalam bahasa Arab tanpa vokal) quran_en_sahih (Quran dalam bahasa Inggris, terjemahan Shahih Internasional) quran_en_yusufali (Quran dalam bahasa Inggris, terjemahan Yusuf Ali) kita akan menganalisis variabel yang dipilih (kolom) dari quran_en_sahih
quranES <- quran_en_sahih %>% select(surah_id,
ayah_id,
surah_title_en,
surah_title_en_trans,
revelation_type,
text,
surah,
ayah,
ayah_title)
# quranES
Mengerjakan ini sebagai kumpulan data yang rapi, kita perlu merestrukturisasinya dalam format satu-token-per-baris, yang seperti yang kita lihat sebelumnya dilakukan dengan fungsi unnest_tokens().
tidyES <- quranES %>%
unnest_tokens(word, text)
tidyES
Fungsi ini memisahkan setiap baris teks dalam data frame asli menjadi token. Tokenisasi default adalah untuk kata-kata, tetapi opsi lain mencakup karakter, n-gram, kalimat, baris, paragraf, atau pemisahan di sekitar pola regex.
Sekarang data dalam format satu kata per baris, kita dapat memanipulasinya dengan tidy tools seperti dplyr. Seringkali dalam analisis teks, kami menghapus kata-kata berhenti; stop words adalah kata-kata yang tidak berguna untuk analisis, biasanya kata-kata yang sangat umum seperti “the”, “of”, “to”, dan sebagainya dalam bahasa Inggris. Kita dapat menghapus stopwords (disimpan dalam tidytext dataset stop_words) dengan anti_join().
data(stop_words)
tidyES <- tidyES %>%
anti_join(stop_words)
Joining, by = "word"
Dataset stop_words dalam package tidytext berisi stopwords dari tiga leksikon. Kita dapat menggunakan semuanya bersama-sama, seperti yang kita miliki di sini, atau filter() untuk hanya menggunakan satu set stopword jika itu lebih sesuai untuk analisis tertentu.
Count dan Plot
Kita juga dapat menggunakan dplyr’s count() untuk menemukan kata-kata yang paling umum di seluruh Quran secara keseluruhan.
Karena kami telah menggunakan tidytools, jumlah kata disimpan dalam data frame yang rapi. Hal ini memungkinkan kita untuk menyalurkannya langsung ke paket ggplot2, misalnya untuk membuat visualisasi kata-kata yang paling umum dalam Sahih International Translation of the Quran. Kami memplot kata-kata yang muncul lebih dari 150 kali.
tidyES %>% count(word, sort = TRUE)
tidyES %>%
count(word, sort = TRUE) %>%
filter(n > 150) %>%
mutate(word = reorder(word, n)) %>%
ggplot(aes(x = word, y = n)) +
geom_col() +
xlab(NULL) +
coord_flip() +
theme(axis.text = element_text(
angle = 0,
color="blue",
size=10)
)

Lakukan Hal yang sama untuk Quran in English Terjemahan Yusuf Ali
quranEY <- quran_en_yusufali %>% select(surah_id,
ayah_id,
surah_title_en,
surah_title_en_trans,
revelation_type,
text,
surah,
ayah,
ayah_title)
# quranES
tidyEY <- quranEY %>%
unnest_tokens(word, text)
tidyEY
my_stopwords <- tibble(word = c('ye', 'verily', 'will', 'said', 'say', 'us',
'thy', 'thee', 'thou', 'hath', 'doth'))
tidyEY <- tidyEY %>%
anti_join(my_stopwords)
Joining, by = "word"
tidyEY %>%
count(word, sort = TRUE) %>%
filter(n > 150) %>%
mutate(word = reorder(word, n)) %>%
ggplot(aes(x = word, y = n)) +
geom_col() +
xlab(NULL) +
coord_flip() +
theme(axis.text = element_text(
angle = 0,
color="blue",
size=10)
)

Sentimen Dataset
get_sentiments("bing")
Kata Positif dan Negatif yang paling Umum
bing_word_counts <- tidyES %>%
inner_join(get_sentiments("bing")) %>%
count(word, sentiment, sort = TRUE) %>%
ungroup()
Joining, by = "word"
bing_word_counts
bing_word_counts %>%
group_by(sentiment) %>%
top_n(20) %>%
ungroup() %>%
mutate(word = reorder(word, n)) %>%
ggplot(aes(word, n, fill = sentiment)) +
geom_col(show.legend = FALSE) +
facet_wrap(~sentiment, scales = "free_y") +
labs(y = "Contribution to sentiment",
x = NULL) +
coord_flip() +
theme(axis.text = element_text(
angle = 0,
color="blue",
size=10))
Selecting by n

bing_word_countsEY <- tidyEY %>%
inner_join(get_sentiments("bing")) %>%
count(word, sentiment, sort = TRUE) %>%
ungroup()
Joining, by = "word"
bing_word_countsEY
bing_word_countsEY %>%
group_by(sentiment) %>%
top_n(20) %>%
ungroup() %>%
mutate(word = reorder(word, n)) %>%
ggplot(aes(word, n, fill = sentiment)) +
geom_col(show.legend = FALSE) +
facet_wrap(~sentiment, scales = "free_y") +
labs(y = "Contribution to sentiment",
x = NULL) +
coord_flip() +
theme(axis.text = element_text(
angle = 0,
color="blue",
size=10))
Selecting by n

Memperbesar kedalam Surah
bingnegative <- get_sentiments("bing") %>%
filter(sentiment == "negative")
wordcounts <- tidyES %>%
group_by(surah_title_en) %>%
summarize(words = n())
tidyES %>%
semi_join(bingnegative) %>%
group_by(surah_title_en) %>%
summarize(negativewords = n()) %>%
left_join(wordcounts, by = c("surah_title_en")) %>%
mutate(ratio = negativewords/words) %>%
top_n(20) %>%
ggplot(aes(x = surah_title_en, y = ratio)) +
geom_col() +
xlab(NULL) +
coord_flip() +
theme(axis.text = element_text(
angle = 0,
color="blue",
size=10))
Joining, by = "word"
Selecting by ratio

bingnegative <- get_sentiments("bing") %>%
filter(sentiment == "negative")
wordcounts <- tidyEY %>%
group_by(surah_title_en) %>%
summarize(words = n())
tidyEY %>%
semi_join(bingnegative) %>%
group_by(surah_title_en) %>%
summarize(negativewords = n()) %>%
left_join(wordcounts, by = c("surah_title_en")) %>%
mutate(ratio = negativewords/words) %>%
top_n(20) %>%
ggplot(aes(x = surah_title_en, y = ratio)) +
geom_col() +
xlab(NULL) +
coord_flip() +
theme(axis.text = element_text(
angle = 0,
color="blue",
size=10))
Joining, by = "word"
Selecting by ratio

Wordclouds
library(wordcloud)
Loading required package: RColorBrewer
tidyES %>%
count(word) %>%
with(wordcloud(word, n, max.words = 100))

library(wordcloud)
tidyEY %>%
count(word) %>%
with(wordcloud(word, n, max.words = 100))

library(reshape2)
Attaching package: ‘reshape2’
The following object is masked from ‘package:tidyr’:
smiths
tidyES %>%
inner_join(get_sentiments("bing")) %>%
count(word, sentiment, sort = TRUE) %>%
acast(word ~ sentiment, value.var = "n", fill = 0) %>%
comparison.cloud(colors = c("#eb52a6", "#54f0b1"),
max.words = 50)
Joining, by = "word"
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
guidance could not be fit on page. It will not be plotted.
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
paradise could not be fit on page. It will not be plotted.
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
sufficient could not be fit on page. It will not be plotted.
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
benefit could not be fit on page. It will not be plotted.
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
righteousness could not be fit on page. It will not be plotted.
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
covenant could not be fit on page. It will not be plotted.
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
unquestionably could not be fit on page. It will not be plotted.
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
enjoyment could not be fit on page. It will not be plotted.

library(reshape2)
tidyEY %>%
inner_join(get_sentiments("bing")) %>%
count(word, sentiment, sort = TRUE) %>%
acast(word ~ sentiment, value.var = "n", fill = 0) %>%
comparison.cloud(colors = c("#eb52a6", "#54f0b1"),
max.words = 50)
Joining, by = "word"
Warning in comparison.cloud(., colors = c("#eb52a6", "#54f0b1"), max.words = 50) :
righteous could not be fit on page. It will not be plotted.

Kesimpulan
Analisis sentimen menyediakan cara untuk memahami sikap dan pendapat yang diungkapkan dalam teks. dengan mengeksplorasi bagaimana menerapkan analisis sentimen untuk dua versi Quran bahasa Inggris menggunakan prinsip-prinsip tidydata. Sebagian besar hasilnya hampir mirip.
Daftar Pustaka
https://rpubs.com/azmanH/686029
