1 Loading Data

Please download the data TiVo.RData from Canvas. The description of the data is in the slides of the case discussion.

# load the MSR package
library(MSR)

# load the data from the hard disc
load("TiVo.RData")

2 Running The Hierarchical Clustering

The data include both continuous variables and binary variables. As a workaround, we will use “Euclidean distance” with “Ward’s method” in the hierarchical clustering.

In addition, because some variables have rather large scale (large mean and standard deviation), we need to rescale there variables to avoid putting too much weight on these large-scaled variables in our distance measure.

To do this, we apply a function called scale() to the data frame cluster_data to standardize all variables, so they have the same scale. For more information of scale, please run ?scale in your command line.

# the distance matrix with Euclidean measure 
# don't forget the scale the cluster data
tivo_dist <- dist(scale(cluster_data), method = "euclidean")

# running the cluster with Ward's method
tivo_cluster <- hclust(tivo_dist, method = "ward.D2")
tivo_cluster

## 
## Call:
## hclust(d = tivo_dist, method = "ward.D2")
## 
## Cluster method   : ward.D2 
## Distance         : euclidean 
## Number of objects: 1000

3 Deciding the No. of Clusters

To decide the no. of clusters, we create an elbow plot with the elbow_plot function. This the same function we use for the practical session. It takes the height vector from tivo_cluster and output a elbow plot with the default no. of clusters set to \(1,2,3,...,10\).

elbow_plot(
  # gettting the height vector from tivo_cluster
  tivo_cluster$height
)

Here, we observe an elbow point at the no. of clusters equal to 4. From 3 clusters to 4 clusters, there is a big decrease of the within-cluster variation. In contrast, from 4 clusters to 3 clusters, there is a small decrease of the within-cluster variation. By applying the Elbow criterion, we have the elbow point at 4 clusters.

4 Intepreting Clusters

First, given the choice of no. of clusters, we obtain the clustering results at 4 clusters with cutree function.

clust_4 <- cutree(tivo_cluster,4)

# change clust_4 as a factor
clust_4 <- as.factor(clust_4)
str(clust_4)

##  Factor w/ 4 levels "1","2","3","4": 1 1 2 1 1 3 3 3 2 3 ...
##  - attr(*, "names")= chr [1:1000] "1" "2" "3" "4" ...

Next, we would have validated with clustering by checking whether different characteristics differ significantly across the 4 clusters. For continuous variables, we can use ANOVA analysis. Note, here we also have binary variables. You need to choose a test that matches the measurement levels of the variables. For binary variables, we will choose chi-square test. This is beyond our discussion. So, the validation step is omitted here.

For simplicity, we will just use all variables in the interpretation. To do so, we need to obtain the cluster means of all the variables. A convenient approach is to use some data packages such as dplyr or data.table. I will omit the codes here as it’s beyond our course.

##                                                        Variables Cluster_1
##  1:                                              Gender: Females      0.53
##  2:                                                Gender: Males      0.47
##  3:                                              Education: none      0.25
##  4:                                                Education: BA      0.25
##  5:                                                Education: MA      0.25
##  6:                                               Education: PhD      0.25
##  7:                                      Annual Income (x1000 $)     48.09
##  8:                                                          Age     53.51
##  9:                            Purchasing Decision-maker: single      0.10
## 10:                            Purchasing Decision-maker: family      0.90
## 11:                                Purchasing Location: discount      0.00
## 12:                              Purchasing Location: web (ebay)      0.00
## 13:                                  Purchasing Location: retail      0.00
## 14:               Purchasing Location: mass-consumer electronics      1.00
## 15:                        Purchasing Location: specialty stores      0.00
## 16:                                    Monthly Electronics Spend     41.41
## 17:                        Purchasing Frequency (every x months)     29.94
## 18:                                       TV Viewing (hours/day)      6.32
## 19:                                Favorite Feature: cool gadget      0.00
## 20:           Favorite Feature: programming/interactive features      0.00
## 21: Favorite Feature: saving favorite shows to watch as a family      1.00
## 22:                           Favorite Feature: schedule control      0.00
## 23:                              Favorite Feature: time shifting      0.00
##                                                        Variables Cluster_1
##     Cluster_2 Cluster_3 Cluster_4
##  1:      0.30      0.48      0.54
##  2:      0.70      0.52      0.46
##  3:      0.14      0.84      0.21
##  4:      0.57      0.16      0.23
##  5:      0.14      0.00      0.33
##  6:      0.15      0.00      0.23
##  7:     60.32     29.86     29.97
##  8:     50.32     52.12     26.40
##  9:      0.25      0.50      0.96
## 10:      0.75      0.50      0.04
## 11:      0.03      0.50      0.36
## 12:      0.00      0.00      0.30
## 13:      0.03      0.50      0.34
## 14:      0.00      0.00      0.00
## 15:      0.94      0.00      0.00
## 16:     56.07     16.84     31.65
## 17:      9.51     24.80     24.17
## 18:      1.12      1.01      2.91
## 19:      0.35      0.33      0.04
## 20:      0.00      0.00      0.90
## 21:      0.00      0.00      0.00
## 22:      0.32      0.33      0.03
## 23:      0.33      0.33      0.03
##     Cluster_2 Cluster_3 Cluster_4

LS0tDQp0aXRsZTogIkNhc2UgMyAtIFNlZ21lbnRhdGlvbiBmb3IgVGlWbyINCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICBkZl9wcmludDogZGVmYXVsdA0KICAgIGNvZGVfZG93bmxvYWQ6IHllcw0KICAgIHRoZW1lOiByZWFkYWJsZQ0KICAgIHRvYzogeWVzDQogICAgdG9jX2Zsb2F0OiANCiAgICAgIGNvbGxhcHNlZDogbm8NCiAgICAgIHNtb290aF9zY3JvbGw6IG5vDQogICAgbnVtYmVyX3NlY3Rpb25zOiB5ZXMNCi0tLQ0KDQojIExvYWRpbmcgRGF0YQ0KDQpQbGVhc2UgZG93bmxvYWQgdGhlIGRhdGEgYFRpVm8uUkRhdGFgIGZyb20gQ2FudmFzLiBUaGUgZGVzY3JpcHRpb24gb2YgdGhlIGRhdGEgaXMgaW4gdGhlIHNsaWRlcyBvZiB0aGUgY2FzZSBkaXNjdXNzaW9uLiANCg0KYGBge3J9DQojIGxvYWQgdGhlIE1TUiBwYWNrYWdlDQpsaWJyYXJ5KE1TUikNCg0KIyBsb2FkIHRoZSBkYXRhIGZyb20gdGhlIGhhcmQgZGlzYw0KbG9hZCgiVGlWby5SRGF0YSIpDQpgYGANCg0KIyBSdW5uaW5nIFRoZSBIaWVyYXJjaGljYWwgQ2x1c3RlcmluZw0KDQpUaGUgZGF0YSBpbmNsdWRlIGJvdGggY29udGludW91cyB2YXJpYWJsZXMgYW5kIGJpbmFyeSB2YXJpYWJsZXMuIEFzIGEgd29ya2Fyb3VuZCwgd2Ugd2lsbCB1c2UgIkV1Y2xpZGVhbiBkaXN0YW5jZSIgd2l0aCAiV2FyZCdzIG1ldGhvZCIgaW4gdGhlIGhpZXJhcmNoaWNhbCBjbHVzdGVyaW5nLg0KDQpJbiBhZGRpdGlvbiwgYmVjYXVzZSBzb21lIHZhcmlhYmxlcyBoYXZlIHJhdGhlciBsYXJnZSBzY2FsZSAobGFyZ2UgbWVhbiBhbmQgc3RhbmRhcmQgZGV2aWF0aW9uKSwgd2UgbmVlZCB0byByZXNjYWxlIHRoZXJlIHZhcmlhYmxlcyB0byBhdm9pZCBwdXR0aW5nIHRvbyBtdWNoIHdlaWdodCBvbiB0aGVzZSBsYXJnZS1zY2FsZWQgdmFyaWFibGVzIGluIG91ciBkaXN0YW5jZSBtZWFzdXJlLiANCg0KVG8gZG8gdGhpcywgd2UgYXBwbHkgYSBmdW5jdGlvbiBjYWxsZWQgYHNjYWxlKClgIHRvIHRoZSBkYXRhIGZyYW1lIGBjbHVzdGVyX2RhdGFgIHRvIHN0YW5kYXJkaXplIGFsbCB2YXJpYWJsZXMsIHNvIHRoZXkgaGF2ZSB0aGUgc2FtZSBzY2FsZS4gRm9yIG1vcmUgaW5mb3JtYXRpb24gb2YgYHNjYWxlYCwgcGxlYXNlIHJ1biBgP3NjYWxlYCBpbiB5b3VyIGNvbW1hbmQgbGluZS4gDQoNCmBgYHtyfQ0KIyB0aGUgZGlzdGFuY2UgbWF0cml4IHdpdGggRXVjbGlkZWFuIG1lYXN1cmUgDQojIGRvbid0IGZvcmdldCB0aGUgc2NhbGUgdGhlIGNsdXN0ZXIgZGF0YQ0KdGl2b19kaXN0IDwtIGRpc3Qoc2NhbGUoY2x1c3Rlcl9kYXRhKSwgbWV0aG9kID0gImV1Y2xpZGVhbiIpDQoNCiMgcnVubmluZyB0aGUgY2x1c3RlciB3aXRoIFdhcmQncyBtZXRob2QNCnRpdm9fY2x1c3RlciA8LSBoY2x1c3QodGl2b19kaXN0LCBtZXRob2QgPSAid2FyZC5EMiIpDQp0aXZvX2NsdXN0ZXINCmBgYA0KDQojIERlY2lkaW5nIHRoZSBOby4gb2YgQ2x1c3RlcnMNCg0KVG8gZGVjaWRlIHRoZSBuby4gb2YgY2x1c3RlcnMsIHdlIGNyZWF0ZSBhbiBlbGJvdyBwbG90IHdpdGggdGhlIGBlbGJvd19wbG90YCBmdW5jdGlvbi4gVGhpcyB0aGUgc2FtZSBmdW5jdGlvbiB3ZSB1c2UgZm9yIHRoZSBwcmFjdGljYWwgc2Vzc2lvbi4gSXQgdGFrZXMgdGhlIGBoZWlnaHRgIHZlY3RvciBmcm9tIGB0aXZvX2NsdXN0ZXJgIGFuZCBvdXRwdXQgYSBlbGJvdyBwbG90IHdpdGggdGhlIGRlZmF1bHQgbm8uIG9mIGNsdXN0ZXJzIHNldCB0byAkMSwyLDMsLi4uLDEwJC4gDQoNCmBgYHtyfQ0KZWxib3dfcGxvdCgNCiAgIyBnZXR0dGluZyB0aGUgaGVpZ2h0IHZlY3RvciBmcm9tIHRpdm9fY2x1c3Rlcg0KICB0aXZvX2NsdXN0ZXIkaGVpZ2h0DQopDQpgYGANCg0KSGVyZSwgd2Ugb2JzZXJ2ZSBhbiBlbGJvdyBwb2ludCBhdCB0aGUgbm8uIG9mIGNsdXN0ZXJzIGVxdWFsIHRvIDQuIEZyb20gMyBjbHVzdGVycyB0byA0IGNsdXN0ZXJzLCB0aGVyZSBpcyBhIGJpZyBkZWNyZWFzZSBvZiB0aGUgd2l0aGluLWNsdXN0ZXIgdmFyaWF0aW9uLiBJbiBjb250cmFzdCwgZnJvbSA0IGNsdXN0ZXJzIHRvIDMgY2x1c3RlcnMsIHRoZXJlIGlzIGEgc21hbGwgZGVjcmVhc2Ugb2YgdGhlIHdpdGhpbi1jbHVzdGVyIHZhcmlhdGlvbi4gQnkgYXBwbHlpbmcgdGhlIEVsYm93IGNyaXRlcmlvbiwgd2UgaGF2ZSB0aGUgZWxib3cgcG9pbnQgYXQgNCBjbHVzdGVycy4gDQoNCiMgSW50ZXByZXRpbmcgQ2x1c3RlcnMNCg0KRmlyc3QsIGdpdmVuIHRoZSBjaG9pY2Ugb2Ygbm8uIG9mIGNsdXN0ZXJzLCB3ZSBvYnRhaW4gdGhlIGNsdXN0ZXJpbmcgcmVzdWx0cyBhdCA0IGNsdXN0ZXJzIHdpdGggYGN1dHJlZWAgZnVuY3Rpb24uIA0KDQpgYGB7cn0NCmNsdXN0XzQgPC0gY3V0cmVlKHRpdm9fY2x1c3Rlciw0KQ0KDQojIGNoYW5nZSBjbHVzdF80IGFzIGEgZmFjdG9yDQpjbHVzdF80IDwtIGFzLmZhY3RvcihjbHVzdF80KQ0Kc3RyKGNsdXN0XzQpDQpgYGANCg0KTmV4dCwgd2Ugd291bGQgaGF2ZSB2YWxpZGF0ZWQgd2l0aCBjbHVzdGVyaW5nIGJ5IGNoZWNraW5nIHdoZXRoZXIgZGlmZmVyZW50IGNoYXJhY3RlcmlzdGljcyBkaWZmZXIgc2lnbmlmaWNhbnRseSBhY3Jvc3MgdGhlIDQgY2x1c3RlcnMuIEZvciBjb250aW51b3VzIHZhcmlhYmxlcywgd2UgY2FuIHVzZSBBTk9WQSBhbmFseXNpcy4gTm90ZSwgaGVyZSB3ZSBhbHNvIGhhdmUgYmluYXJ5IHZhcmlhYmxlcy4gWW91IG5lZWQgdG8gY2hvb3NlIGEgdGVzdCB0aGF0IG1hdGNoZXMgdGhlIG1lYXN1cmVtZW50IGxldmVscyBvZiB0aGUgdmFyaWFibGVzLiBGb3IgYmluYXJ5IHZhcmlhYmxlcywgd2Ugd2lsbCBjaG9vc2UgY2hpLXNxdWFyZSB0ZXN0LiBUaGlzIGlzIGJleW9uZCBvdXIgZGlzY3Vzc2lvbi4gU28sIHRoZSB2YWxpZGF0aW9uIHN0ZXAgaXMgb21pdHRlZCBoZXJlLiANCg0KRm9yIHNpbXBsaWNpdHksIHdlIHdpbGwganVzdCB1c2UgYWxsIHZhcmlhYmxlcyBpbiB0aGUgaW50ZXJwcmV0YXRpb24uIFRvIGRvIHNvLCB3ZSBuZWVkIHRvIG9idGFpbiB0aGUgY2x1c3RlciBtZWFucyBvZiBhbGwgdGhlIHZhcmlhYmxlcy4gQSBjb252ZW5pZW50IGFwcHJvYWNoIGlzIHRvIHVzZSBzb21lIGRhdGEgcGFja2FnZXMgc3VjaCBhcyBgZHBseXJgIG9yIGBkYXRhLnRhYmxlYC4gSSB3aWxsIG9taXQgdGhlIGNvZGVzIGhlcmUgYXMgaXQncyBiZXlvbmQgb3VyIGNvdXJzZS4gIA0KDQpgYGB7ciwgZWNobz1GLCB3YXJuaW5nPUYsIG1lc3NhZ2U9Rn0NCmxpYnJhcnkoZGF0YS50YWJsZSkNCmNsdXN0ZXJfZGF0YSRjbHVzdF80IDwtIGNsdXN0XzQNCmNsdXN0ZXJfbWVhbiA8LSBzZXREVChjbHVzdGVyX2RhdGEpWywgbGFwcGx5KC5TRCxtZWFuKSwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBieSA9IC4oY2x1c3RfNCksDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAuU0Rjb2xzID0gY29sbmFtZXMoY2x1c3Rlcl9kYXRhKVstMjRdXQ0KY2x1c3Rlcl9tZWFuIDwtIHRyYW5zcG9zZShjbHVzdGVyX21lYW4pDQpjbHVzdGVyX21lYW4gPC0gY2x1c3Rlcl9tZWFuWy0xLF0NCmNvbG5hbWVzKGNsdXN0ZXJfbWVhbikgPC0gcGFzdGUoIkNsdXN0ZXJfIixhcy5jaGFyYWN0ZXIoMTo0KSxzZXAgPSAiIikNCmNsdXN0ZXJfbWVhbiRWYXJpYWJsZXMgPC0gY29sbmFtZXMoY2x1c3Rlcl9kYXRhKVstMjRdDQpjbHVzdGVyX21lYW5bLDE6NF0gPC0gYXMuZGF0YS5mcmFtZShsYXBwbHkoY2x1c3Rlcl9tZWFuWywxOjRdLA0KICAgICAgICAgICAgICAgICAgICAgZnVuY3Rpb24oeCl7cm91bmQoYXMubnVtZXJpYyh4KSxkaWdpdHMgPSAyKX0pKQ0KY2x1c3Rlcl9tZWFuWyxjKDUsMTo0KV0NCmBgYA0KDQo=

Case 3 - Segmentation for TiVo

1 Loading Data

2 Running The Hierarchical Clustering

3 Deciding the No. of Clusters

4 Intepreting Clusters