Unsupervised Learning

data(iris) # call in iris dataset 
head(iris) # view the first few rows

set.seed(42) # set seed to ensure reproducible results 
km <-kmeans(iris[,1:4], 3,nstart=25) # choose 3 clusters – there are 3 species in the iris dataset 
km

K-means clustering with 3 clusters of sizes 38, 62, 50

Cluster means:
  Sepal.Length Sepal.Width Petal.Length Petal.Width
1     6.850000    3.073684     5.742105    2.071053
2     5.901613    2.748387     4.393548    1.433871
3     5.006000    3.428000     1.462000    0.246000

Clustering vector:
  [1] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2
 [80] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 1 2 1 2 1 2 1 1 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 2 1 1 2

Within cluster sum of squares by cluster:
[1] 23.87947 39.82097 15.15100
 (between_SS / total_SS =  88.4 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss" "betweenss"    "size"         "iter"         "ifault"

table(km$cluster, iris$Species)

   
    setosa versicolor virginica
  1      0          2        36
  2      0         48        14
  3     50          0         0

plot(iris[,1], iris[,2], col=km$cluster) # plots cluster centers by Sepal Length by Sepal Width 
points(km$centers[,c(1,2)], col=1:3, pch=8, cex=2) # add points for the cluster centers

plot(iris[,3], iris[,4], col=km$cluster)
points(km$centers[,c(3,4)], col=1:3, pch=8, cex=2)

Discussion:

1.How is unsupervised learning related to the statistical clustering problem?

The most common unsupervised learning method is cluster analysis, which is used for exploratory data analysis to find hidden patterns or grouping in data. The clusters are modeled using a measure of similarity which is defined upon metrics such as Euclidean or probabilistic distance.Unsupervised learning methods are used in bioinformatics for sequence analysis and genetic clustering; in data mining for sequence and pattern mining; in medical imaging for image segmentation; and in computer vision for object recognition.

What packages R perform unsupervised learning?

The (sparcl) package in R performs sparse hierarchical and sparse K-means clustering. The (nsprcomp) R package provides methods for sparse Principal Component Analysis. (PCA) package will perform Principal Component Analysis

How would we compare the results of two different models, or sets of hyperparameters for one model? F-test

LS0tDQp0aXRsZTogIlVuc3VwZXJ2aXNlZCBMZWFybmluZyINCm91dHB1dDogaHRtbF9ub3RlYm9vaw0KLS0tDQoNCg0KYGBge3J9DQpkYXRhKGlyaXMpICMgY2FsbCBpbiBpcmlzIGRhdGFzZXQgDQpoZWFkKGlyaXMpICMgdmlldyB0aGUgZmlyc3QgZmV3IHJvd3MgDQpgYGANCg0KYGBge3J9DQpzZXQuc2VlZCg0MikgIyBzZXQgc2VlZCB0byBlbnN1cmUgcmVwcm9kdWNpYmxlIHJlc3VsdHMgDQprbSA8LWttZWFucyhpcmlzWywxOjRdLCAzLG5zdGFydD0yNSkgIyBjaG9vc2UgMyBjbHVzdGVycyDigJMgdGhlcmUgYXJlIDMgc3BlY2llcyBpbiB0aGUgaXJpcyBkYXRhc2V0IA0Ka20NCmBgYA0KDQpgYGB7cn0NCnRhYmxlKGttJGNsdXN0ZXIsIGlyaXMkU3BlY2llcykNCmBgYA0KDQpgYGB7cn0NCnBsb3QoaXJpc1ssMV0sIGlyaXNbLDJdLCBjb2w9a20kY2x1c3RlcikgIyBwbG90cyBjbHVzdGVyIGNlbnRlcnMgYnkgU2VwYWwgTGVuZ3RoIGJ5IFNlcGFsIFdpZHRoIA0KcG9pbnRzKGttJGNlbnRlcnNbLGMoMSwyKV0sIGNvbD0xOjMsIHBjaD04LCBjZXg9MikgIyBhZGQgcG9pbnRzIGZvciB0aGUgY2x1c3RlciBjZW50ZXJzIA0KYGBgDQpgYGB7cn0NCnBsb3QoaXJpc1ssM10sIGlyaXNbLDRdLCBjb2w9a20kY2x1c3RlcikNCnBvaW50cyhrbSRjZW50ZXJzWyxjKDMsNCldLCBjb2w9MTozLCBwY2g9OCwgY2V4PTIpDQpgYGANCg0KDQojI0Rpc2N1c3Npb246DQoxLkhvdyBpcyB1bnN1cGVydmlzZWQgbGVhcm5pbmcgcmVsYXRlZCB0byB0aGUgc3RhdGlzdGljYWwgY2x1c3RlcmluZyBwcm9ibGVtPw0KDQpUaGUgbW9zdCBjb21tb24gdW5zdXBlcnZpc2VkIGxlYXJuaW5nIG1ldGhvZCBpcyBjbHVzdGVyIGFuYWx5c2lzLCB3aGljaCBpcyB1c2VkIGZvciBleHBsb3JhdG9yeSBkYXRhIGFuYWx5c2lzIHRvIGZpbmQgaGlkZGVuIHBhdHRlcm5zIG9yIGdyb3VwaW5nIGluIGRhdGEuIFRoZSBjbHVzdGVycyBhcmUgbW9kZWxlZCB1c2luZyBhIG1lYXN1cmUgb2Ygc2ltaWxhcml0eSB3aGljaCBpcyBkZWZpbmVkIHVwb24gbWV0cmljcyBzdWNoIGFzIEV1Y2xpZGVhbiBvciBwcm9iYWJpbGlzdGljIGRpc3RhbmNlLlVuc3VwZXJ2aXNlZCBsZWFybmluZyBtZXRob2RzIGFyZSB1c2VkIGluIGJpb2luZm9ybWF0aWNzIGZvciBzZXF1ZW5jZSBhbmFseXNpcyBhbmQgZ2VuZXRpYyBjbHVzdGVyaW5nOyBpbiBkYXRhIG1pbmluZyBmb3Igc2VxdWVuY2UgYW5kIHBhdHRlcm4gbWluaW5nOyBpbiBtZWRpY2FsIGltYWdpbmcgZm9yIGltYWdlIHNlZ21lbnRhdGlvbjsgYW5kIGluIGNvbXB1dGVyIHZpc2lvbiBmb3Igb2JqZWN0IHJlY29nbml0aW9uLg0KDQoyLiBXaGF0IHBhY2thZ2VzIFIgcGVyZm9ybSB1bnN1cGVydmlzZWQgbGVhcm5pbmc/DQoNClRoZSAoc3BhcmNsKSBwYWNrYWdlIGluIFIgcGVyZm9ybXMgc3BhcnNlIGhpZXJhcmNoaWNhbCBhbmQgc3BhcnNlIEstbWVhbnMgY2x1c3RlcmluZy4NClRoZSAobnNwcmNvbXApIFIgcGFja2FnZSBwcm92aWRlcyBtZXRob2RzIGZvciBzcGFyc2UgUHJpbmNpcGFsIENvbXBvbmVudCBBbmFseXNpcy4NCihQQ0EpIHBhY2thZ2Ugd2lsbCBwZXJmb3JtIFByaW5jaXBhbCBDb21wb25lbnQgQW5hbHlzaXMNCg0KMy4gSG93IHdvdWxkIHdlIGNvbXBhcmUgdGhlIHJlc3VsdHMgb2YgdHdvIGRpZmZlcmVudCBtb2RlbHMsIG9yIHNldHMgb2YgaHlwZXJwYXJhbWV0ZXJzIGZvciBvbmUgbW9kZWw/DQpGLXRlc3QNCg==