K-means clustering is a method of clustering data into a predetermined number of clusters. It is an unsupervised learning algorithm that tries to group data points in a way that minimizes the sum of the distances between the data points within each cluster.

The algorithm works as follows:

Specify the number of clusters, k. Initialize k centroids randomly within the data. Assign each data point to the nearest centroid. Recompute the centroids as the mean of the data points assigned to each centroid. Repeat steps 3 and 4 until the centroids stop moving or a maximum number of iterations is reached. One limitation of K-means is that it assumes that the clusters are spherical and equally sized, which may not always be the case in real-world data. Additionally, the initial placement of the centroids can affect the final clustering, so it may be necessary to run the algorithm multiple times with different initialization to obtain the best results.

For this case study will be performing flower (iris) segmentation by apply Kmean clustering. The objective is to understand the Kmean clustering.

Data attributes include: Sepal width and Length, petal width and length plus species. Aim is to build a model that is able to predict flower species depending on attribute given.

1 Data Understanding

Loading Important Libraries

library(data.table)
library(dplyr)
library(tidyverse)
library(ggplot2)

Load and view the data set

require("datasets")

data("iris")

Viewing with the structure of the data set

str(iris)

## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Statistical summary

summary(iris)

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
##

Data set preview

head(iris)

1.0.1 Pre-Processing the data set

Since clustering is a type of Unsupervised Learning, we would not require Class Label(output) during execution of our algorithm. We will, therefore, remove Class Attribute “Species” and store it in another variable. We would then normalize the attributes between 0 and 1 using our own function.

iris.new<- iris[, c(1, 2, 3, 4)]
iris.class<- iris[, "Species"]
head(iris.new)

Previewing the class column

head(iris.class)

## [1] setosa setosa setosa setosa setosa setosa
## Levels: setosa versicolor virginica

Normalizing the data set so that no particular attribute has more impact on clustering algorithm than others.

normalize <- function(x){
  return ((x-min(x)) / (max(x)-min(x)))
}

iris.new$Sepal.Length<- normalize(iris.new$Sepal.Length)
iris.new$Sepal.Width<- normalize(iris.new$Sepal.Width)
iris.new$Petal.Length<- normalize(iris.new$Petal.Length)
iris.new$Petal.Width<- normalize(iris.new$Petal.Width)
head(iris.new)

Applying the K-means clustering algorithm with no. of centroids(k)=3

result<- kmeans(iris.new,3)

records preview

result$size

## [1] 50 39 61

Getting the value of cluster center data point value(3 centers for k=3)

result$centers

##   Sepal.Length Sepal.Width Petal.Length Petal.Width
## 1    0.1961111   0.5950000   0.07830508  0.06083333
## 2    0.7072650   0.4508547   0.79704476  0.82478632
## 3    0.4412568   0.3073770   0.57571548  0.54918033

Getting the cluster vector that shows the cluster where each record falls

result$cluster

##   [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##  [38] 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
##  [75] 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 3 2 2 2 2 3 2 2 2 2
## [112] 2 2 3 2 2 2 2 2 3 2 3 2 3 2 2 3 3 2 2 2 2 2 3 3 2 2 2 3 2 2 2 3 2 2 2 3 2
## [149] 2 3

Visualizing the clustering results

plot(iris[,1:2], col = result$cluster)

par(mfrow = c(2,2), mar = c(5,4,2,2))

Plotting to see how Sepal.Length and Sepal.Width data points have been distributed in clusters

plot(iris.new[c(1,2)], col = result$cluster)

Plotting to see how Sepal.Length and Sepal.Width data points have been distributed originally as per “class” attribute in data set.

plot(iris.new[c(1,2)], col = iris.class)

Plotting to see how Petal.Length and Petal.Width data points have been distributed in clusters

plot(iris.new[c(1,2)], col = result$cluster)

plot(iris.new[c(3,4)], col = iris.class)

Result of table shows that Cluster 1 corresponds to Virginica, Cluster 2 corresponds to Versicolor and Cluster 3 to Setosa.

table(result$cluster, iris.class)

##    iris.class
##     setosa versicolor virginica
##   1     50          0         0
##   2      0          3        36
##   3      0         47        14

In order to improve this accuracy further, will try different values of “k”.

Applying the K-means clustering algorithm with no. of centroids(k)5

result<- kmeans(iris.new,5)

records preview

result$size

## [1] 40 19 29 50 12

Getting the value of cluster center data point value(3 centers for k=5)

result$centers

##   Sepal.Length Sepal.Width Petal.Length Petal.Width
## 1    0.5430556   0.3750000   0.65423729  0.63020833
## 2    0.6242690   0.4649123   0.76271186  0.89692982
## 3    0.3563218   0.2370690   0.50905903  0.47126437
## 4    0.1961111   0.5950000   0.07830508  0.06083333
## 5    0.8819444   0.4687500   0.89830508  0.81250000

Getting the cluster vector that shows the cluster where each record falls

result$cluster

##   [1] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
##  [38] 4 4 4 4 4 4 4 4 4 4 4 4 4 1 1 1 3 1 3 1 3 1 3 3 1 3 1 3 1 1 3 3 3 1 3 1 1
##  [75] 1 1 1 1 1 3 3 3 3 1 3 1 1 3 3 3 3 1 3 3 3 3 3 1 3 3 2 1 5 1 2 5 3 5 1 5 2
## [112] 1 2 1 2 2 1 5 5 3 2 1 5 1 2 5 1 1 2 5 5 5 2 1 1 5 2 1 1 2 2 2 1 2 2 2 1 2
## [149] 2 1

Visualizing the clustering results

plot(iris[,1:2], col = result$cluster)

par(mfrow = c(2,2), mar = c(5,4,2,2))

Plotting to see how Sepal.Length and Sepal.Width data points have been distributed in clusters

plot(iris.new[c(1,2)], col = result$cluster)

Plotting to see how Sepal.Length and Sepal.Width data points have been distributed originally as per “class” attribute in data set.

plot(iris.new[c(1,2)], col = iris.class)

Plotting to see how Petal.Length and Petal.Width data points have been distributed in clusters

plot(iris.new[c(1,2)], col = result$cluster)

plot(iris.new[c(3,4)], col = iris.class)

Result of table shows that Cluster 1 corresponds to Virginica, Cluster 2 corresponds to Versicolor and Cluster 3 to Setosa.

table(result$cluster, iris.class)

##    iris.class
##     setosa versicolor virginica
##   1      0         23        17
##   2      0          0        19
##   3      0         27         2
##   4     50          0         0
##   5      0          0        12

There are several metrics that can be used to evaluate the success of K-means clustering:

Within-cluster sum of squares (WCSS): This measures the sum of the squared distances between the data points in a cluster and the centroid of the cluster. A small WCSS indicates that the data points in the cluster are close to the centroid, and the cluster is therefore “tight”.

Silhouette score: This measures how well each data point is assigned to its own cluster. A high silhouette score indicates that the data points are well-separated from other clusters.

Calinski-Harabasz index: This measures the ratio of the sum of squared distances between the data points in a cluster and the centroid of the cluster, to the sum of squared distances between the data points and the centroid of the whole dataset. A high Calinski-Harabasz index indicates that the clusters are well-separated from each other.

Dunn index: This measures the ratio of the minimum distance between the centroids of two different clusters, to the maximum distance between the data points in the same cluster. A high Dunn index indicates that the clusters are well-separated from each other and the data points within each cluster are close to the centroid.

It is important to note that these metrics should not be used in isolation, as different metrics may be more or less relevant depending on the specific characteristics of the dataset. It is also important to consider the business context in which the clusters will be used, as the ultimate goal of clustering may be to solve a particular business problem.

LS0tDQp0aXRsZTogJ0lyaXMgRGF0YSBzZXQ6IEttZWFuIGNsdXN0ZXJpbmcgY2FzZSBzdHVkeScNCmF1dGhvcjogIkR5bmFzdHkiDQpkYXRlOiAiYHIgU3lzLkRhdGUoKWAiDQpvdXRwdXQ6DQogIGh0bWxfZG9jdW1lbnQ6DQogICAgZGY6IHBhZ2VkDQogICAgdG9jOiB5ZXMNCiAgICB0b2NfZGVwdGg6IDMNCiAgICB0b2NfZmxvYXQ6DQogICAgICBjb2xsYXBzZWQ6IHllcw0KICAgICAgc21vb3RoX3Njcm9sbDogeWVzDQogICAgbnVtYmVyX3NlY3Rpb25zOiB5ZXMNCiAgICB0aGVtZTogcmVhZGFibGUNCiAgICBoaWdobGlnaHQ6IGhhZGRvY2sNCiAgICBjb2RlX2Rvd25sb2FkOiB5ZXMNCiAgd29yZF9kb2N1bWVudDoNCiAgICB0b2M6IHllcw0KICAgIHRvY19kZXB0aDogJzMnDQotLS0NCg0KYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0V9DQprbml0cjo6b3B0c19jaHVuayRzZXQoZWNobyA9IFRSVUUpDQpgYGANCg0KDQoNCkstbWVhbnMgY2x1c3RlcmluZyBpcyBhIG1ldGhvZCBvZiBjbHVzdGVyaW5nIGRhdGEgaW50byBhIHByZWRldGVybWluZWQgbnVtYmVyIG9mIGNsdXN0ZXJzLiBJdCBpcyBhbiB1bnN1cGVydmlzZWQgbGVhcm5pbmcgYWxnb3JpdGhtIHRoYXQgdHJpZXMgdG8gZ3JvdXAgZGF0YSBwb2ludHMgaW4gYSB3YXkgdGhhdCBtaW5pbWl6ZXMgdGhlIHN1bSBvZiB0aGUgZGlzdGFuY2VzIGJldHdlZW4gdGhlIGRhdGEgcG9pbnRzIHdpdGhpbiBlYWNoIGNsdXN0ZXIuDQoNClRoZSBhbGdvcml0aG0gd29ya3MgYXMgZm9sbG93czoNCg0KU3BlY2lmeSB0aGUgbnVtYmVyIG9mIGNsdXN0ZXJzLCBrLg0KSW5pdGlhbGl6ZSBrIGNlbnRyb2lkcyByYW5kb21seSB3aXRoaW4gdGhlIGRhdGEuDQpBc3NpZ24gZWFjaCBkYXRhIHBvaW50IHRvIHRoZSBuZWFyZXN0IGNlbnRyb2lkLg0KUmVjb21wdXRlIHRoZSBjZW50cm9pZHMgYXMgdGhlIG1lYW4gb2YgdGhlIGRhdGEgcG9pbnRzIGFzc2lnbmVkIHRvIGVhY2ggY2VudHJvaWQuDQpSZXBlYXQgc3RlcHMgMyBhbmQgNCB1bnRpbCB0aGUgY2VudHJvaWRzIHN0b3AgbW92aW5nIG9yIGEgbWF4aW11bSBudW1iZXIgb2YgaXRlcmF0aW9ucyBpcyByZWFjaGVkLg0KT25lIGxpbWl0YXRpb24gb2YgSy1tZWFucyBpcyB0aGF0IGl0IGFzc3VtZXMgdGhhdCB0aGUgY2x1c3RlcnMgYXJlIHNwaGVyaWNhbCBhbmQgZXF1YWxseSBzaXplZCwgd2hpY2ggbWF5IG5vdCBhbHdheXMgYmUgdGhlIGNhc2UgaW4gcmVhbC13b3JsZCBkYXRhLiBBZGRpdGlvbmFsbHksIHRoZSBpbml0aWFsIHBsYWNlbWVudCBvZiB0aGUgY2VudHJvaWRzIGNhbiBhZmZlY3QgdGhlIGZpbmFsIGNsdXN0ZXJpbmcsIHNvIGl0IG1heSBiZSBuZWNlc3NhcnkgdG8gcnVuIHRoZSBhbGdvcml0aG0gbXVsdGlwbGUgdGltZXMgd2l0aCBkaWZmZXJlbnQgaW5pdGlhbGl6YXRpb24gdG8gb2J0YWluIHRoZSBiZXN0IHJlc3VsdHMuDQoNCkZvciB0aGlzIGNhc2Ugc3R1ZHkgd2lsbCBiZSBwZXJmb3JtaW5nIGZsb3dlciAoaXJpcykgc2VnbWVudGF0aW9uIGJ5ICBhcHBseSBLbWVhbiBjbHVzdGVyaW5nLiBUaGUgb2JqZWN0aXZlIGlzIHRvIHVuZGVyc3RhbmQgdGhlIEttZWFuIGNsdXN0ZXJpbmcuDQoNCkRhdGEgYXR0cmlidXRlcyBpbmNsdWRlOiBTZXBhbCB3aWR0aCBhbmQgTGVuZ3RoLCBwZXRhbCB3aWR0aCBhbmQgbGVuZ3RoIHBsdXMgc3BlY2llcy4NCkFpbSBpcyB0byBidWlsZCBhIG1vZGVsIHRoYXQgaXMgYWJsZSB0byBwcmVkaWN0IGZsb3dlciBzcGVjaWVzIGRlcGVuZGluZyBvbiBhdHRyaWJ1dGUgZ2l2ZW4uDQoNCg0KDQoNCiMgKipEYXRhIFVuZGVyc3RhbmRpbmcqKg0KDQpMb2FkaW5nIEltcG9ydGFudCBMaWJyYXJpZXMNCmBgYHtyIG1lc3NhZ2UgPSBGQUxTRX0NCmxpYnJhcnkoZGF0YS50YWJsZSkNCmxpYnJhcnkoZHBseXIpDQpsaWJyYXJ5KHRpZHl2ZXJzZSkNCmxpYnJhcnkoZ2dwbG90MikNCmBgYA0KDQoNCiBMb2FkIGFuZCB2aWV3IHRoZSBkYXRhIHNldCANCmBgYHtyfQ0KcmVxdWlyZSgiZGF0YXNldHMiKQ0KYGBgDQoNCmBgYHtyfQ0KZGF0YSgiaXJpcyIpDQpgYGANCg0KVmlld2luZyB3aXRoIHRoZSBzdHJ1Y3R1cmUgb2YgdGhlIGRhdGEgc2V0DQpgYGB7cn0NCnN0cihpcmlzKQ0KYGBgDQoNCg0KU3RhdGlzdGljYWwgc3VtbWFyeQ0KYGBge3J9DQpzdW1tYXJ5KGlyaXMpDQpgYGANCg0KRGF0YSBzZXQgcHJldmlldw0KYGBge3J9DQpoZWFkKGlyaXMpDQpgYGANCg0KDQojIyMgKipQcmUtUHJvY2Vzc2luZyB0aGUgZGF0YSBzZXQqKg0KDQpTaW5jZSBjbHVzdGVyaW5nIGlzIGEgdHlwZSBvZiBVbnN1cGVydmlzZWQgTGVhcm5pbmcsIHdlIHdvdWxkIG5vdCByZXF1aXJlIENsYXNzIExhYmVsKG91dHB1dCkgZHVyaW5nIGV4ZWN1dGlvbiBvZiBvdXIgYWxnb3JpdGhtLiBXZSB3aWxsLCB0aGVyZWZvcmUsIHJlbW92ZSBDbGFzcyBBdHRyaWJ1dGUg4oCcU3BlY2llc+KAnSBhbmQgc3RvcmUgaXQgaW4gYW5vdGhlciB2YXJpYWJsZS4gV2Ugd291bGQgdGhlbiBub3JtYWxpemUgdGhlIGF0dHJpYnV0ZXMgYmV0d2VlbiAwIGFuZCAxIHVzaW5nIG91ciBvd24gZnVuY3Rpb24uDQoNCg0KYGBge3J9DQppcmlzLm5ldzwtIGlyaXNbLCBjKDEsIDIsIDMsIDQpXQ0KaXJpcy5jbGFzczwtIGlyaXNbLCAiU3BlY2llcyJdDQpoZWFkKGlyaXMubmV3KQ0KYGBgDQoNCg0KUHJldmlld2luZyB0aGUgY2xhc3MgY29sdW1uDQpgYGB7cn0NCmhlYWQoaXJpcy5jbGFzcykNCmBgYA0KDQpOb3JtYWxpemluZyB0aGUgZGF0YSBzZXQgc28gdGhhdCBubyBwYXJ0aWN1bGFyIGF0dHJpYnV0ZSBoYXMgbW9yZSBpbXBhY3Qgb24gY2x1c3RlcmluZyBhbGdvcml0aG0gdGhhbiBvdGhlcnMuDQoNCmBgYHtyfQ0Kbm9ybWFsaXplIDwtIGZ1bmN0aW9uKHgpew0KICByZXR1cm4gKCh4LW1pbih4KSkgLyAobWF4KHgpLW1pbih4KSkpDQp9DQoNCmlyaXMubmV3JFNlcGFsLkxlbmd0aDwtIG5vcm1hbGl6ZShpcmlzLm5ldyRTZXBhbC5MZW5ndGgpDQppcmlzLm5ldyRTZXBhbC5XaWR0aDwtIG5vcm1hbGl6ZShpcmlzLm5ldyRTZXBhbC5XaWR0aCkNCmlyaXMubmV3JFBldGFsLkxlbmd0aDwtIG5vcm1hbGl6ZShpcmlzLm5ldyRQZXRhbC5MZW5ndGgpDQppcmlzLm5ldyRQZXRhbC5XaWR0aDwtIG5vcm1hbGl6ZShpcmlzLm5ldyRQZXRhbC5XaWR0aCkNCmhlYWQoaXJpcy5uZXcpDQpgYGANCg0KDQpBcHBseWluZyB0aGUgSy1tZWFucyBjbHVzdGVyaW5nIGFsZ29yaXRobSB3aXRoIG5vLiBvZiBjZW50cm9pZHMoayk9Mw0KYGBge3J9DQpyZXN1bHQ8LSBrbWVhbnMoaXJpcy5uZXcsMykgDQpgYGANCg0KDQpyZWNvcmRzIHByZXZpZXcNCmBgYHtyfQ0KcmVzdWx0JHNpemUgDQpgYGANCg0KR2V0dGluZyB0aGUgdmFsdWUgb2YgY2x1c3RlciBjZW50ZXIgZGF0YSBwb2ludCB2YWx1ZSgzIGNlbnRlcnMgZm9yIGs9MykNCmBgYHtyfQ0KcmVzdWx0JGNlbnRlcnMgDQpgYGANCg0KIEdldHRpbmcgdGhlIGNsdXN0ZXIgdmVjdG9yIHRoYXQgc2hvd3MgdGhlIGNsdXN0ZXIgd2hlcmUgZWFjaCByZWNvcmQgZmFsbHMNCiANCmBgYHtyfQ0KcmVzdWx0JGNsdXN0ZXINCmBgYA0KIA0KDQpWaXN1YWxpemluZyB0aGUgIGNsdXN0ZXJpbmcgcmVzdWx0cw0KYGBge3J9DQpwbG90KGlyaXNbLDE6Ml0sIGNvbCA9IHJlc3VsdCRjbHVzdGVyKSANCmBgYA0KDQoNCg0KDQoNCg0KYGBge3J9DQpwYXIobWZyb3cgPSBjKDIsMiksIG1hciA9IGMoNSw0LDIsMikpDQpgYGANCg0KUGxvdHRpbmcgdG8gc2VlIGhvdyBTZXBhbC5MZW5ndGggYW5kIFNlcGFsLldpZHRoIGRhdGEgcG9pbnRzIGhhdmUgYmVlbiBkaXN0cmlidXRlZCBpbiBjbHVzdGVycw0KYGBge3J9DQpwbG90KGlyaXMubmV3W2MoMSwyKV0sIGNvbCA9IHJlc3VsdCRjbHVzdGVyKQ0KYGBgDQoNCg0KDQoNClBsb3R0aW5nIHRvIHNlZSBob3cgU2VwYWwuTGVuZ3RoIGFuZCBTZXBhbC5XaWR0aCBkYXRhIHBvaW50cyBoYXZlIGJlZW4gZGlzdHJpYnV0ZWQgb3JpZ2luYWxseSBhcyBwZXIgImNsYXNzIiBhdHRyaWJ1dGUgaW4gZGF0YSBzZXQuDQpgYGB7cn0NCnBsb3QoaXJpcy5uZXdbYygxLDIpXSwgY29sID0gaXJpcy5jbGFzcykNCmBgYA0KDQoNCg0KDQoNClBsb3R0aW5nIHRvIHNlZSBob3cgUGV0YWwuTGVuZ3RoIGFuZCBQZXRhbC5XaWR0aCBkYXRhIHBvaW50cyBoYXZlIGJlZW4gZGlzdHJpYnV0ZWQgaW4gY2x1c3RlcnMNCg0KYGBge3J9DQpwbG90KGlyaXMubmV3W2MoMSwyKV0sIGNvbCA9IHJlc3VsdCRjbHVzdGVyKQ0KcGxvdChpcmlzLm5ld1tjKDMsNCldLCBjb2wgPSBpcmlzLmNsYXNzKQ0KYGBgDQoNCg0KUmVzdWx0IG9mIHRhYmxlIHNob3dzIHRoYXQgQ2x1c3RlciAxIGNvcnJlc3BvbmRzIHRvIFZpcmdpbmljYSwgQ2x1c3RlciAyIGNvcnJlc3BvbmRzIHRvIFZlcnNpY29sb3IgYW5kIENsdXN0ZXIgMyB0byBTZXRvc2EuDQoNCmBgYHtyfQ0KdGFibGUocmVzdWx0JGNsdXN0ZXIsIGlyaXMuY2xhc3MpDQpgYGANCg0KDQoNCg0KDQoNCkluIG9yZGVyIHRvIGltcHJvdmUgdGhpcyBhY2N1cmFjeSBmdXJ0aGVyLCB3aWxsIHRyeSBkaWZmZXJlbnQgdmFsdWVzIG9mIOKAnGvigJ0uIA0KDQpBcHBseWluZyB0aGUgSy1tZWFucyBjbHVzdGVyaW5nIGFsZ29yaXRobSB3aXRoIG5vLiBvZiBjZW50cm9pZHMoayk1DQpgYGB7cn0NCnJlc3VsdDwtIGttZWFucyhpcmlzLm5ldyw1KSANCmBgYA0KDQoNCnJlY29yZHMgcHJldmlldw0KYGBge3J9DQpyZXN1bHQkc2l6ZSANCmBgYA0KDQpHZXR0aW5nIHRoZSB2YWx1ZSBvZiBjbHVzdGVyIGNlbnRlciBkYXRhIHBvaW50IHZhbHVlKDMgY2VudGVycyBmb3Igaz01KQ0KYGBge3J9DQpyZXN1bHQkY2VudGVycyANCmBgYA0KDQogR2V0dGluZyB0aGUgY2x1c3RlciB2ZWN0b3IgdGhhdCBzaG93cyB0aGUgY2x1c3RlciB3aGVyZSBlYWNoIHJlY29yZCBmYWxscw0KIA0KYGBge3J9DQpyZXN1bHQkY2x1c3Rlcg0KYGBgDQogDQoNClZpc3VhbGl6aW5nIHRoZSAgY2x1c3RlcmluZyByZXN1bHRzDQpgYGB7cn0NCnBsb3QoaXJpc1ssMToyXSwgY29sID0gcmVzdWx0JGNsdXN0ZXIpIA0KYGBgDQoNCg0KDQoNCg0KDQpgYGB7cn0NCnBhcihtZnJvdyA9IGMoMiwyKSwgbWFyID0gYyg1LDQsMiwyKSkNCmBgYA0KDQpQbG90dGluZyB0byBzZWUgaG93IFNlcGFsLkxlbmd0aCBhbmQgU2VwYWwuV2lkdGggZGF0YSBwb2ludHMgaGF2ZSBiZWVuIGRpc3RyaWJ1dGVkIGluIGNsdXN0ZXJzDQpgYGB7cn0NCnBsb3QoaXJpcy5uZXdbYygxLDIpXSwgY29sID0gcmVzdWx0JGNsdXN0ZXIpDQpgYGANCg0KDQoNCg0KUGxvdHRpbmcgdG8gc2VlIGhvdyBTZXBhbC5MZW5ndGggYW5kIFNlcGFsLldpZHRoIGRhdGEgcG9pbnRzIGhhdmUgYmVlbiBkaXN0cmlidXRlZCBvcmlnaW5hbGx5IGFzIHBlciAiY2xhc3MiIGF0dHJpYnV0ZSBpbiBkYXRhIHNldC4NCmBgYHtyfQ0KcGxvdChpcmlzLm5ld1tjKDEsMildLCBjb2wgPSBpcmlzLmNsYXNzKQ0KYGBgDQoNCg0KDQoNCg0KUGxvdHRpbmcgdG8gc2VlIGhvdyBQZXRhbC5MZW5ndGggYW5kIFBldGFsLldpZHRoIGRhdGEgcG9pbnRzIGhhdmUgYmVlbiBkaXN0cmlidXRlZCBpbiBjbHVzdGVycw0KDQpgYGB7cn0NCnBsb3QoaXJpcy5uZXdbYygxLDIpXSwgY29sID0gcmVzdWx0JGNsdXN0ZXIpDQpwbG90KGlyaXMubmV3W2MoMyw0KV0sIGNvbCA9IGlyaXMuY2xhc3MpDQpgYGANCg0KDQpSZXN1bHQgb2YgdGFibGUgc2hvd3MgdGhhdCBDbHVzdGVyIDEgY29ycmVzcG9uZHMgdG8gVmlyZ2luaWNhLCBDbHVzdGVyIDIgY29ycmVzcG9uZHMgdG8gVmVyc2ljb2xvciBhbmQgQ2x1c3RlciAzIHRvIFNldG9zYS4NCg0KYGBge3J9DQp0YWJsZShyZXN1bHQkY2x1c3RlciwgaXJpcy5jbGFzcykNCmBgYA0KDQoNClRoZXJlIGFyZSBzZXZlcmFsIG1ldHJpY3MgdGhhdCBjYW4gYmUgdXNlZCB0byBldmFsdWF0ZSB0aGUgc3VjY2VzcyBvZiBLLW1lYW5zIGNsdXN0ZXJpbmc6DQoNCldpdGhpbi1jbHVzdGVyIHN1bSBvZiBzcXVhcmVzIChXQ1NTKTogVGhpcyBtZWFzdXJlcyB0aGUgc3VtIG9mIHRoZSBzcXVhcmVkIGRpc3RhbmNlcyBiZXR3ZWVuIHRoZSBkYXRhIHBvaW50cyBpbiBhIGNsdXN0ZXIgYW5kIHRoZSBjZW50cm9pZCBvZiB0aGUgY2x1c3Rlci4gQSBzbWFsbCBXQ1NTIGluZGljYXRlcyB0aGF0IHRoZSBkYXRhIHBvaW50cyBpbiB0aGUgY2x1c3RlciBhcmUgY2xvc2UgdG8gdGhlIGNlbnRyb2lkLCBhbmQgdGhlIGNsdXN0ZXIgaXMgdGhlcmVmb3JlICJ0aWdodCIuDQoNClNpbGhvdWV0dGUgc2NvcmU6IFRoaXMgbWVhc3VyZXMgaG93IHdlbGwgZWFjaCBkYXRhIHBvaW50IGlzIGFzc2lnbmVkIHRvIGl0cyBvd24gY2x1c3Rlci4gQSBoaWdoIHNpbGhvdWV0dGUgc2NvcmUgaW5kaWNhdGVzIHRoYXQgdGhlIGRhdGEgcG9pbnRzIGFyZSB3ZWxsLXNlcGFyYXRlZCBmcm9tIG90aGVyIGNsdXN0ZXJzLg0KDQpDYWxpbnNraS1IYXJhYmFzeiBpbmRleDogVGhpcyBtZWFzdXJlcyB0aGUgcmF0aW8gb2YgdGhlIHN1bSBvZiBzcXVhcmVkIGRpc3RhbmNlcyBiZXR3ZWVuIHRoZSBkYXRhIHBvaW50cyBpbiBhIGNsdXN0ZXIgYW5kIHRoZSBjZW50cm9pZCBvZiB0aGUgY2x1c3RlciwgdG8gdGhlIHN1bSBvZiBzcXVhcmVkIGRpc3RhbmNlcyBiZXR3ZWVuIHRoZSBkYXRhIHBvaW50cyBhbmQgdGhlIGNlbnRyb2lkIG9mIHRoZSB3aG9sZSBkYXRhc2V0LiBBIGhpZ2ggQ2FsaW5za2ktSGFyYWJhc3ogaW5kZXggaW5kaWNhdGVzIHRoYXQgdGhlIGNsdXN0ZXJzIGFyZSB3ZWxsLXNlcGFyYXRlZCBmcm9tIGVhY2ggb3RoZXIuDQoNCkR1bm4gaW5kZXg6IFRoaXMgbWVhc3VyZXMgdGhlIHJhdGlvIG9mIHRoZSBtaW5pbXVtIGRpc3RhbmNlIGJldHdlZW4gdGhlIGNlbnRyb2lkcyBvZiB0d28gZGlmZmVyZW50IGNsdXN0ZXJzLCB0byB0aGUgbWF4aW11bSBkaXN0YW5jZSBiZXR3ZWVuIHRoZSBkYXRhIHBvaW50cyBpbiB0aGUgc2FtZSBjbHVzdGVyLiBBIGhpZ2ggRHVubiBpbmRleCBpbmRpY2F0ZXMgdGhhdCB0aGUgY2x1c3RlcnMgYXJlIHdlbGwtc2VwYXJhdGVkIGZyb20gZWFjaCBvdGhlciBhbmQgdGhlIGRhdGEgcG9pbnRzIHdpdGhpbiBlYWNoIGNsdXN0ZXIgYXJlIGNsb3NlIHRvIHRoZSBjZW50cm9pZC4NCg0KSXQgaXMgaW1wb3J0YW50IHRvIG5vdGUgdGhhdCB0aGVzZSBtZXRyaWNzIHNob3VsZCBub3QgYmUgdXNlZCBpbiBpc29sYXRpb24sIGFzIGRpZmZlcmVudCBtZXRyaWNzIG1heSBiZSBtb3JlIG9yIGxlc3MgcmVsZXZhbnQgZGVwZW5kaW5nIG9uIHRoZSBzcGVjaWZpYyBjaGFyYWN0ZXJpc3RpY3Mgb2YgdGhlIGRhdGFzZXQuIEl0IGlzIGFsc28gaW1wb3J0YW50IHRvIGNvbnNpZGVyIHRoZSBidXNpbmVzcyBjb250ZXh0IGluIHdoaWNoIHRoZSBjbHVzdGVycyB3aWxsIGJlIHVzZWQsIGFzIHRoZSB1bHRpbWF0ZSBnb2FsIG9mIGNsdXN0ZXJpbmcgbWF5IGJlIHRvIHNvbHZlIGEgcGFydGljdWxhciBidXNpbmVzcyBwcm9ibGVtLg==

Iris Data set: Kmean clustering case study

Dynasty

2023-01-03

1 Data Understanding

1.0.1 Pre-Processing the data set