Amazon Dataset Analysis

group 14
10/05/2016

Данные

Описание данных:

subset_14.json

  • reviewerID - ID пользователя
  • asin - ID книги
  • reviewerName - имя пользователя
  • helpful - полезность отзыва
  • reviewText - текст отзыва
  • overall - рейтинг продукта
  • summary - краткое содержание отзыва
  • unixReviewTime - время публикации отзыва (unix time)
  • reviewTime - время публикации отзыва (raw)

meta_14.json

  • title - название книги
  • buy_afterviewing - набор книг купленных после просмотра
  • also_bought - набор также купленных книг
  • bought_together - набор книг кпленных вместе
  • also_viewed - набор также просмотренных книг
  • price - цена книги
  • description - описание книги
  • salesRank - ранг продаж
  • categories - категории

Распределение отзывов по годам

ggplot(a, aes(month, count)) + geom_point() + xlab("Year") + theme_classic() + theme(axis.text.x = element_text(angle = 30, hjust = 1))

plot of chunk plot

Самые встречаемые слова в отзывах

wordcloud(corp, random.order=F, scale = c(8, .3), rot.per = .15, max.words=100)

plot of chunk unnamed-chunk-3

wordcloud(d$word, d$freq, scale = c(8, .3), min.freq = 2, max.words = 100, random.order = T, rot.per = .15, colors = pal, vfont = c("sans serif", "plain"))

plot of chunk unnamed-chunk-5

Распределение продаж по рейтингу

ggplot(alldata) + 
  geom_boxplot(aes(y=salesRank[[1]], x=factor(overall))) + 
  labs(x='Rating of the product', y='Sales rank')

plot of chunk unnamed-chunk-7

Распределение цены по рейтингу

ggplot(alldata) +
  geom_boxplot(aes(y=price, x=factor(overall))) +
  labs(x='Rating of the product', y='Price') +
  lims(y=c(0, 70)) 

plot of chunk unnamed-chunk-8

Количество проданных экземпляров от цены

цвет - поставленные оценки

ggplot(alldata, aes(price, salesRank$Books)) + 
  geom_point(aes(color = overall)) + labs(x='Price', y='Sales')

plot of chunk unnamed-chunk-9

полезные отзывы

Wilson score

\[ \frac{\hat{p}+\frac{z^2}{2n} - z*\sqrt{\frac{\hat{p}*(1-\hat{p})+\frac{z^2}{4n}}{n}}}{1+\frac{z^2}{n}} \]

                              reviewer
1                            Mary Lins
2        William Merrill "eclecticist"
3 "switterbug" Betsey Van Horn
4              Goldengate "Goldengate"
5         Robert W. Kellemen "Doc. K."
6                            Mary Lins
                                             summary helpfullRank
1               Expert Storyteller/Enthralling Tale!    6714.2344
2                    Fiendishly clever mystery novel    4465.0274
3 It's not what you think.  It's more than you know.    2528.9739
4 Entertaining - evokes the South at a point in time    2169.7237
5 Incredible Journey Into the Dark Night of the Soul     454.5112
6                               Too Much of the Same     391.1423

Рекомендуемые книги

цвет узлов - поставленные оценки

g <- delete.vertices(g, which(degree(g) == 0))
plot(g,
     vertex.size=degree(g)/2,
     vertex.label = NA,
     vertex.color = data_overall$overall,
     edge.arrow.size=0.1,
     layout=layout.kamada.kawai)

plot of chunk unnamed-chunk-13

Рекомендуемые книги

Убираем из предыдущего графа книги, чье degree больше 10

g3<-delete.vertices(g,which(degree(g)>=10))
plot(g3,
     vertex.size=degree(g3)/2,
     vertex.label = NA,
     vertex.color = data_overall$overall,
     edge.arrow.size=0.1,
     layout=layout.kamada.kawai)

plot of chunk unnamed-chunk-14

Рекомендуемые книги

Убираем из предыдущего графа книги, чье degree больше 5

g4 <- delete.vertices(g,which(degree(g)>=5))
plot(g4,
     vertex.size=degree(g4)/2,
     vertex.label = NA,
     vertex.color = data_overall$overall,
     edge.arrow.size=0.1,
     layout=layout.kamada.kawai)

plot of chunk unnamed-chunk-15

книги которые также просматривают

g <- delete.vertices(g, which(degree(g) == 0))
plot(g,
     vertex.size=log(degree(g)),
     vertex.label = NA,
     edge.arrow.size=0.1,
     vertex.color = data_overall$overall,
     layout=layout.kamada.kawai)

plot of chunk unnamed-chunk-17