Transcend Analysis - Yuyang Wang

#packages
install.packages("tidyverse")

Error in install.packages : Updating loaded packages

install.packages("syuzhet")

Error in install.packages : Updating loaded packages

install.packages("tm")

Error in install.packages : Updating loaded packages

install.packages("wordcloud")

Error in install.packages : Updating loaded packages

#libraries
library(tidyverse)

[30m── [1mAttaching packages[22m ──────────────────────────────────────────────────────────────────────── tidyverse 1.3.0 ──[39m
[30m[32m✔[30m [34mggplot2[30m 3.2.1     [32m✔[30m [34mpurrr  [30m 0.3.3
[32m✔[30m [34mtibble [30m 2.1.3     [32m✔[30m [34mdplyr  [30m 0.8.3
[32m✔[30m [34mtidyr  [30m 1.0.0     [32m✔[30m [34mstringr[30m 1.4.0
[32m✔[30m [34mreadr  [30m 1.3.1     [32m✔[30m [34mforcats[30m 0.4.0[39m
[30m── [1mConflicts[22m ─────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[30m [34mdplyr[30m::[32mfilter()[30m masks [34mstats[30m::filter()
[31m✖[30m [34mdplyr[30m::[32mlag()[30m    masks [34mstats[30m::lag()[39m

library(stringr)
library(magrittr)


Attaching package: ‘magrittr’

The following object is masked from ‘package:purrr’:

    set_names

The following object is masked from ‘package:tidyr’:

    extract

library(dplyr)
library(syuzhet)
library(tm)

Loading required package: NLP

Attaching package: ‘NLP’

The following object is masked from ‘package:ggplot2’:

    annotate

library(wordcloud)

Loading required package: RColorBrewer

#read in file
electronics = read_csv("/Users/yuyangwang 1/Desktop/Penn/Course Work/19-Fall/OIDD 245/Transcend/electronics_downsample.csv")

Missing column names filled in: 'X1' [1]Parsed with column specification:
cols(
  X1 = [32mcol_double()[39m,
  asin = [31mcol_character()[39m,
  helpful = [31mcol_character()[39m,
  overall = [32mcol_double()[39m,
  reviewText = [31mcol_character()[39m,
  reviewTime = [31mcol_character()[39m,
  reviewerID = [31mcol_character()[39m,
  reviewerName = [31mcol_character()[39m,
  summary = [31mcol_character()[39m,
  unixReviewTime = [32mcol_double()[39m
)

Part 1: Identify competitors in the Amazon SD marketplace

The top 3 ASINs are B007WTAJTO, B002WE6D44, B000VX6XL6.

#filtering for SD or sd
all_sd = electronics %>%
  filter(str_detect(reviewText, " sd | SD "))

#group by asin
grouped_sd = all_sd %>%
  group_by(asin) %>%
  tally %>%
  arrange(desc(n))

#top 3
top3_asin = head(grouped_sd, 3)
colnames(top3_asin) = c("ASIN", "Count")
top3_asin

Part 2:

The average overall number of stars and average sentiment scores for the top 3 ASINs are shown below.

#getting info for top 3 asins
all_info_top3 = electronics %>%
 filter(asin %in% top3_asin$ASIN)

#getting average of overall stars
avg_star = all_info_top3 %>%
  group_by(asin) %>%
  summarise(mean(overall))

colnames(avg_star) = c("ASIN", "Average Number of Stars")

#sentiment
avg_senti = all_info_top3 %>%
  group_by(asin) %>%
  summarise(mean(get_sentiment(reviewText)))

colnames(avg_senti) = c("ASIN", "Average Sentiment Score")

avg_star

avg_senti

Part 3:

#corpus
corpus = VCorpus(VectorSource(all_info_top3$reviewText))

#Step 1: cleaning
corp = tm_map(corpus, removePunctuation) 
corp = tm_map(corp, removeNumbers) 
corp = tm_map(corp, content_transformer(tolower) ,lazy=TRUE) 
corp = tm_map(corp, content_transformer(removeWords), c("TIL") ,lazy=TRUE)
corp = tm_map(corp, content_transformer(removeWords), stopwords("english") ,lazy=TRUE)
corp = tm_map(corp, stripWhitespace)

#Step 2: document-term matrix
dtm = DocumentTermMatrix(corp)
dtms = removeSparseTerms(dtm, 0.983)
dim(dtm)

[1]  5138 11207

dim(dtms)

[1] 5138  295

dtms_m = as.matrix(dtms)
dtms_m = cbind(dtms_m, all_info_top3$overall)

#Step 3: Correlation of words to stars
corr = cor(dtms_m[,c(296)], dtms_m[,-c(296)])
top30_freq = tail(corr[1, order(corr)], 30)
top30_names = tail(colnames(corr)[order(corr)],30)
bottom30_freq = head(corr[1, order(corr)], 30)
bottom30_names = head(colnames(corr)[order(corr)],30)

#positive wordcloud
layout(matrix(c(1, 2), nrow=2), heights=c(1, 4))
par(mar=rep(0, 4))
plot.new()
text(x=0.5, y=0.5, "Wordcloud of Words Positively Correlated with Number of Stars")

wordcloud(words = top30_names,freq=top30_freq, main="Title")

#negative wordcloud
layout(matrix(c(1, 2), nrow=2), heights=c(1, 4))

par(mar=rep(0, 4))

plot.new()
text(x=0.5, y=0.5, "Wordcloud of Words Negatively Correlated with Number of Stars")

wordcloud(words = bottom30_names,freq=bottom30_freq * -0.005)

Part 4

The two features that I chose to use to predict whether or not a review was helpful was by looking at the number of numeric values that appear in the review and the number of expressive punctuations (exclamation points and question marks).

On the training data, it predicts with an accuracy of 0.6735427 while assigning 0 to each row predicts with an accuracy of 0.6186867.

On the testing data, it predicts with an accuracy of 0.6435192 while assigning 0 to each row predicts with an accuracy of 0.5676949.

Therefore, the two features can be seen at somewhat accurate indicators of whether or not a reivew will be voted helpful.

#Adding binary variable of whether the review has a helpful vote
findHelpful = function(tuple) {
  string = str_replace(tuple,'\\[', "")
  num = (str_split(string, ","))[[1]][1]
  return (num)
}
electronics$helpful_num = sapply(electronics$helpful, findHelpful)
electronics$helpful_binary = ifelse(electronics$helpful_num > 0, 1, 0)

#create feature - amount of numbers in review text
findDigits = function(text) {
  num = str_count(text, pattern="\\d+")
  return (num)
}

electronics$totalNums = sapply(electronics$reviewText, findDigits)

#create feature - amount of "!" or "?" in review text
findPunc = function(text) {
  num = str_count(text, pattern="!|\\?")
  return (num)
}

electronics$totalPunc = sapply(electronics$reviewText, findPunc)

#separating testing and training data
train = electronics[1:(0.8 * nrow(electronics)),]
test = electronics[-(1:(0.8 * nrow(electronics))),]

#creating model based off of training data
trained_model = glm(data = train, helpful_binary ~ totalNums + totalPunc, family = binomial)

glm.fit: fitted probabilities numerically 0 or 1 occurred

#predict using model on training data
train$prob = predict(trained_model, type="response")
train$prediction = ifelse(train$prob > 0.44, 1, 0)
mean(train$helpful_binary == train$prediction)

[1] 0.6735427

#predicting 0 for every row on training data
mean(train$helpful_binary == 0)

[1] 0.6186867

#predicting on testing data
test$prob = predict(trained_model, newdata=test, type="response")
test$prediction = ifelse(test$prob > 0.44, 1, 0)
mean(test$helpful_binary == test$prediction)

[1] 0.6435192

#predicting 0 for every row on training data
mean(test$helpful_binary == 0)

[1] 0.5676949

LS0tCnRpdGxlOiAiVHJhbnNjZW5kIEFuYWx5c2lzIC0gWXV5YW5nIFdhbmciCm91dHB1dDogaHRtbF9ub3RlYm9vawotLS0KCmBgYHtyfQojcGFja2FnZXMKaW5zdGFsbC5wYWNrYWdlcygidGlkeXZlcnNlIikKaW5zdGFsbC5wYWNrYWdlcygic3l1emhldCIpCmluc3RhbGwucGFja2FnZXMoInRtIikKaW5zdGFsbC5wYWNrYWdlcygid29yZGNsb3VkIikKYGBgCgpgYGB7cn0KI2xpYnJhcmllcwpsaWJyYXJ5KHRpZHl2ZXJzZSkKbGlicmFyeShzdHJpbmdyKQpsaWJyYXJ5KG1hZ3JpdHRyKQpsaWJyYXJ5KGRwbHlyKQpsaWJyYXJ5KHN5dXpoZXQpCmxpYnJhcnkodG0pCmxpYnJhcnkod29yZGNsb3VkKQpgYGAKCgpgYGB7cn0KI3JlYWQgaW4gZmlsZQplbGVjdHJvbmljcyA9IHJlYWRfY3N2KCIvVXNlcnMveXV5YW5nd2FuZyAxL0Rlc2t0b3AvUGVubi9Db3Vyc2UgV29yay8xOS1GYWxsL09JREQgMjQ1L1RyYW5zY2VuZC9lbGVjdHJvbmljc19kb3duc2FtcGxlLmNzdiIpCmBgYAoKUGFydCAxOiBJZGVudGlmeSBjb21wZXRpdG9ycyBpbiB0aGUgQW1hem9uIFNEIG1hcmtldHBsYWNlCgpUaGUgdG9wIDMgQVNJTnMgYXJlIEIwMDdXVEFKVE8sIEIwMDJXRTZENDQsIEIwMDBWWDZYTDYuCgpgYGB7cn0KI2ZpbHRlcmluZyBmb3IgU0Qgb3Igc2QKYWxsX3NkID0gZWxlY3Ryb25pY3MgJT4lCiAgZmlsdGVyKHN0cl9kZXRlY3QocmV2aWV3VGV4dCwgIiBzZCB8IFNEICIpKQoKI2dyb3VwIGJ5IGFzaW4KZ3JvdXBlZF9zZCA9IGFsbF9zZCAlPiUKICBncm91cF9ieShhc2luKSAlPiUKICB0YWxseSAlPiUKICBhcnJhbmdlKGRlc2MobikpCgojdG9wIDMKdG9wM19hc2luID0gaGVhZChncm91cGVkX3NkLCAzKQpjb2xuYW1lcyh0b3AzX2FzaW4pID0gYygiQVNJTiIsICJDb3VudCIpCnRvcDNfYXNpbgpgYGAKClBhcnQgMjoKClRoZSBhdmVyYWdlIG92ZXJhbGwgbnVtYmVyIG9mIHN0YXJzIGFuZCBhdmVyYWdlIHNlbnRpbWVudCBzY29yZXMgZm9yIHRoZSB0b3AgMyBBU0lOcyBhcmUgc2hvd24gYmVsb3cuCgpgYGB7cn0KI2dldHRpbmcgaW5mbyBmb3IgdG9wIDMgYXNpbnMKYWxsX2luZm9fdG9wMyA9IGVsZWN0cm9uaWNzICU+JQogZmlsdGVyKGFzaW4gJWluJSB0b3AzX2FzaW4kQVNJTikKCiNnZXR0aW5nIGF2ZXJhZ2Ugb2Ygb3ZlcmFsbCBzdGFycwphdmdfc3RhciA9IGFsbF9pbmZvX3RvcDMgJT4lCiAgZ3JvdXBfYnkoYXNpbikgJT4lCiAgc3VtbWFyaXNlKG1lYW4ob3ZlcmFsbCkpCgpjb2xuYW1lcyhhdmdfc3RhcikgPSBjKCJBU0lOIiwgIkF2ZXJhZ2UgTnVtYmVyIG9mIFN0YXJzIikKCiNzZW50aW1lbnQKYXZnX3NlbnRpID0gYWxsX2luZm9fdG9wMyAlPiUKICBncm91cF9ieShhc2luKSAlPiUKICBzdW1tYXJpc2UobWVhbihnZXRfc2VudGltZW50KHJldmlld1RleHQpKSkKCmNvbG5hbWVzKGF2Z19zZW50aSkgPSBjKCJBU0lOIiwgIkF2ZXJhZ2UgU2VudGltZW50IFNjb3JlIikKCmF2Z19zdGFyCmF2Z19zZW50aQpgYGAKClBhcnQgMzoKCmBgYHtyfQojY29ycHVzCmNvcnB1cyA9IFZDb3JwdXMoVmVjdG9yU291cmNlKGFsbF9pbmZvX3RvcDMkcmV2aWV3VGV4dCkpCgojU3RlcCAxOiBjbGVhbmluZwpjb3JwID0gdG1fbWFwKGNvcnB1cywgcmVtb3ZlUHVuY3R1YXRpb24pIApjb3JwID0gdG1fbWFwKGNvcnAsIHJlbW92ZU51bWJlcnMpIApjb3JwID0gdG1fbWFwKGNvcnAsIGNvbnRlbnRfdHJhbnNmb3JtZXIodG9sb3dlcikgLGxhenk9VFJVRSkgCmNvcnAgPSB0bV9tYXAoY29ycCwgY29udGVudF90cmFuc2Zvcm1lcihyZW1vdmVXb3JkcyksIGMoIlRJTCIpICxsYXp5PVRSVUUpCmNvcnAgPSB0bV9tYXAoY29ycCwgY29udGVudF90cmFuc2Zvcm1lcihyZW1vdmVXb3JkcyksIHN0b3B3b3JkcygiZW5nbGlzaCIpICxsYXp5PVRSVUUpCmNvcnAgPSB0bV9tYXAoY29ycCwgc3RyaXBXaGl0ZXNwYWNlKQoKI1N0ZXAgMjogZG9jdW1lbnQtdGVybSBtYXRyaXgKZHRtID0gRG9jdW1lbnRUZXJtTWF0cml4KGNvcnApCmR0bXMgPSByZW1vdmVTcGFyc2VUZXJtcyhkdG0sIDAuOTgzKQpkaW0oZHRtKQpkaW0oZHRtcykKZHRtc19tID0gYXMubWF0cml4KGR0bXMpCmR0bXNfbSA9IGNiaW5kKGR0bXNfbSwgYWxsX2luZm9fdG9wMyRvdmVyYWxsKQoKI1N0ZXAgMzogQ29ycmVsYXRpb24gb2Ygd29yZHMgdG8gc3RhcnMKY29yciA9IGNvcihkdG1zX21bLGMoMjk2KV0sIGR0bXNfbVssLWMoMjk2KV0pCnRvcDMwX2ZyZXEgPSB0YWlsKGNvcnJbMSwgb3JkZXIoY29ycildLCAzMCkKdG9wMzBfbmFtZXMgPSB0YWlsKGNvbG5hbWVzKGNvcnIpW29yZGVyKGNvcnIpXSwzMCkKYm90dG9tMzBfZnJlcSA9IGhlYWQoY29yclsxLCBvcmRlcihjb3JyKV0sIDMwKQpib3R0b20zMF9uYW1lcyA9IGhlYWQoY29sbmFtZXMoY29ycilbb3JkZXIoY29ycildLDMwKQoKI3Bvc2l0aXZlIHdvcmRjbG91ZApsYXlvdXQobWF0cml4KGMoMSwgMiksIG5yb3c9MiksIGhlaWdodHM9YygxLCA0KSkKcGFyKG1hcj1yZXAoMCwgNCkpCnBsb3QubmV3KCkKdGV4dCh4PTAuNSwgeT0wLjUsICJXb3JkY2xvdWQgb2YgV29yZHMgUG9zaXRpdmVseSBDb3JyZWxhdGVkIHdpdGggTnVtYmVyIG9mIFN0YXJzIikKd29yZGNsb3VkKHdvcmRzID0gdG9wMzBfbmFtZXMsZnJlcT10b3AzMF9mcmVxLCBtYWluPSJUaXRsZSIpCgojbmVnYXRpdmUgd29yZGNsb3VkCmxheW91dChtYXRyaXgoYygxLCAyKSwgbnJvdz0yKSwgaGVpZ2h0cz1jKDEsIDQpKQpwYXIobWFyPXJlcCgwLCA0KSkKcGxvdC5uZXcoKQp0ZXh0KHg9MC41LCB5PTAuNSwgIldvcmRjbG91ZCBvZiBXb3JkcyBOZWdhdGl2ZWx5IENvcnJlbGF0ZWQgd2l0aCBOdW1iZXIgb2YgU3RhcnMiKQp3b3JkY2xvdWQod29yZHMgPSBib3R0b20zMF9uYW1lcyxmcmVxPWJvdHRvbTMwX2ZyZXEgKiAtMC4wMDUpCmBgYAoKUGFydCA0CgpUaGUgdHdvIGZlYXR1cmVzIHRoYXQgSSBjaG9zZSB0byB1c2UgdG8gcHJlZGljdCB3aGV0aGVyIG9yIG5vdCBhIHJldmlldyB3YXMgaGVscGZ1bCB3YXMgYnkgbG9va2luZyBhdCB0aGUgbnVtYmVyIG9mIG51bWVyaWMgdmFsdWVzIHRoYXQgYXBwZWFyIGluIHRoZSByZXZpZXcgYW5kIHRoZSBudW1iZXIgb2YgZXhwcmVzc2l2ZSBwdW5jdHVhdGlvbnMgKGV4Y2xhbWF0aW9uIHBvaW50cyBhbmQgcXVlc3Rpb24gbWFya3MpLgoKT24gdGhlIHRyYWluaW5nIGRhdGEsIGl0IHByZWRpY3RzIHdpdGggYW4gYWNjdXJhY3kgb2YgMC42NzM1NDI3IHdoaWxlIGFzc2lnbmluZyAwIHRvIGVhY2ggcm93IHByZWRpY3RzIHdpdGggYW4gYWNjdXJhY3kgb2YgMC42MTg2ODY3LgoKT24gdGhlIHRlc3RpbmcgZGF0YSwgaXQgcHJlZGljdHMgd2l0aCBhbiBhY2N1cmFjeSBvZiAwLjY0MzUxOTIgd2hpbGUgYXNzaWduaW5nIDAgdG8gZWFjaCByb3cgcHJlZGljdHMgd2l0aCBhbiBhY2N1cmFjeSBvZiAwLjU2NzY5NDkuCgpUaGVyZWZvcmUsIHRoZSB0d28gZmVhdHVyZXMgY2FuIGJlIHNlZW4gYXQgc29tZXdoYXQgYWNjdXJhdGUgaW5kaWNhdG9ycyBvZiB3aGV0aGVyIG9yIG5vdCBhIHJlaXZldyB3aWxsIGJlIHZvdGVkIGhlbHBmdWwuCmBgYHtyfQojQWRkaW5nIGJpbmFyeSB2YXJpYWJsZSBvZiB3aGV0aGVyIHRoZSByZXZpZXcgaGFzIGEgaGVscGZ1bCB2b3RlCmZpbmRIZWxwZnVsID0gZnVuY3Rpb24odHVwbGUpIHsKICBzdHJpbmcgPSBzdHJfcmVwbGFjZSh0dXBsZSwnXFxbJywgIiIpCiAgbnVtID0gKHN0cl9zcGxpdChzdHJpbmcsICIsIikpW1sxXV1bMV0KICByZXR1cm4gKG51bSkKfQplbGVjdHJvbmljcyRoZWxwZnVsX251bSA9IHNhcHBseShlbGVjdHJvbmljcyRoZWxwZnVsLCBmaW5kSGVscGZ1bCkKZWxlY3Ryb25pY3MkaGVscGZ1bF9iaW5hcnkgPSBpZmVsc2UoZWxlY3Ryb25pY3MkaGVscGZ1bF9udW0gPiAwLCAxLCAwKQoKI2NyZWF0ZSBmZWF0dXJlIC0gYW1vdW50IG9mIG51bWJlcnMgaW4gcmV2aWV3IHRleHQKZmluZERpZ2l0cyA9IGZ1bmN0aW9uKHRleHQpIHsKICBudW0gPSBzdHJfY291bnQodGV4dCwgcGF0dGVybj0iXFxkKyIpCiAgcmV0dXJuIChudW0pCn0KCmVsZWN0cm9uaWNzJHRvdGFsTnVtcyA9IHNhcHBseShlbGVjdHJvbmljcyRyZXZpZXdUZXh0LCBmaW5kRGlnaXRzKQoKI2NyZWF0ZSBmZWF0dXJlIC0gYW1vdW50IG9mICIhIiBvciAiPyIgaW4gcmV2aWV3IHRleHQKZmluZFB1bmMgPSBmdW5jdGlvbih0ZXh0KSB7CiAgbnVtID0gc3RyX2NvdW50KHRleHQsIHBhdHRlcm49IiF8XFw/IikKICByZXR1cm4gKG51bSkKfQoKZWxlY3Ryb25pY3MkdG90YWxQdW5jID0gc2FwcGx5KGVsZWN0cm9uaWNzJHJldmlld1RleHQsIGZpbmRQdW5jKQoKI3NlcGFyYXRpbmcgdGVzdGluZyBhbmQgdHJhaW5pbmcgZGF0YQp0cmFpbiA9IGVsZWN0cm9uaWNzWzE6KDAuOCAqIG5yb3coZWxlY3Ryb25pY3MpKSxdCnRlc3QgPSBlbGVjdHJvbmljc1stKDE6KDAuOCAqIG5yb3coZWxlY3Ryb25pY3MpKSksXQpgYGAKCmBgYHtyfQojY3JlYXRpbmcgbW9kZWwgYmFzZWQgb2ZmIG9mIHRyYWluaW5nIGRhdGEKdHJhaW5lZF9tb2RlbCA9IGdsbShkYXRhID0gdHJhaW4sIGhlbHBmdWxfYmluYXJ5IH4gdG90YWxOdW1zICsgdG90YWxQdW5jLCBmYW1pbHkgPSBiaW5vbWlhbCkKCiNwcmVkaWN0IHVzaW5nIG1vZGVsIG9uIHRyYWluaW5nIGRhdGEKdHJhaW4kcHJvYiA9IHByZWRpY3QodHJhaW5lZF9tb2RlbCwgdHlwZT0icmVzcG9uc2UiKQp0cmFpbiRwcmVkaWN0aW9uID0gaWZlbHNlKHRyYWluJHByb2IgPiAwLjQ0LCAxLCAwKQptZWFuKHRyYWluJGhlbHBmdWxfYmluYXJ5ID09IHRyYWluJHByZWRpY3Rpb24pCgojcHJlZGljdGluZyAwIGZvciBldmVyeSByb3cgb24gdHJhaW5pbmcgZGF0YQptZWFuKHRyYWluJGhlbHBmdWxfYmluYXJ5ID09IDApCmBgYApgYGB7cn0KI3ByZWRpY3Rpbmcgb24gdGVzdGluZyBkYXRhCnRlc3QkcHJvYiA9IHByZWRpY3QodHJhaW5lZF9tb2RlbCwgbmV3ZGF0YT10ZXN0LCB0eXBlPSJyZXNwb25zZSIpCnRlc3QkcHJlZGljdGlvbiA9IGlmZWxzZSh0ZXN0JHByb2IgPiAwLjQ0LCAxLCAwKQptZWFuKHRlc3QkaGVscGZ1bF9iaW5hcnkgPT0gdGVzdCRwcmVkaWN0aW9uKQoKI3ByZWRpY3RpbmcgMCBmb3IgZXZlcnkgcm93IG9uIHRyYWluaW5nIGRhdGEKbWVhbih0ZXN0JGhlbHBmdWxfYmluYXJ5ID09IDApCmBgYAoKCg==