Text analytics for large sets of customer feedback

# Remove sparse terms
Promo_clust <- removeSparseTerms(tdm_Promo, sparse = 0.93)
Promo_matrix <- as.matrix(Promo_clust)
# Plotting cluster terms
dist_Promo <- dist(scale(Promo_matrix))
fit_Promo <- hclust(dist_Promo, method = "ward.D2")
dendr    <- dendro_data(fit_Promo, type="rectangle")
clust    <- cutree(fit_Promo,k=4)
clust.df <- data.frame(label=names(clust), cluster=factor(clust))
dendr[["labels"]] <- merge(dendr[["labels"]],clust.df, by="label")
# Dendogram plot
ggplot() + geom_segment(data=segment(dendr), aes(x=x, y=y,
          xend=xend, yend=yend)) + geom_text(data=label(dendr), 
          aes(x, y, label=label, hjust=0, color=cluster), 
          size=4) + theme_minimal() + coord_flip() 
          + scale_y_reverse(expand=c(.2,0)) 
          + labs(title = "Dendogram: Clustering by themes", 
          x = "Themes", y = "Distance")

… Thanks!

PS: This presentation was done in RStudio presenter using "output: ioslides_presentation" for the Data Science Specialisation (JHU/Coursera)

Objectives

Methodology

Dendogram chart example

Promoter's feedback

Dendogram's code