Στο dataset USArrests
Σε αυτή την εργασία εφαρμόζουμε μεθόδους συσταδοποίησης σε ένα γνωστό dataset της R, το USArrests. Πρόκειται για ένα προεγκατεστημένο dataset της R, όπως πολλά άλλα, που χρησιμοποιείται για σκοπούς εξοικείωσης και επίδειξης. Το επέλεξα επειδή είναι ιδιαίτερα κατάλληλο για εφαρμογή τεχνικών clustering. Στόχος είναι η κατανόηση των ομοιοτήτων μεταξύ των πολιτειών των ΗΠΑ ως προς τα ποσοστά εγκληματικότητας.
Το αρχείο περιλαμβάνει: - Περιγραφή των μεταβλητών - Εξερεύνηση του dataset με γραφήματα (scatterplots, histograms, barplots, heatmaps) - Ιεραρχική συσταδοποίηση (Hierarchical Clustering) - Προαιρετικά: K-means clustering
head(df) # Πρώτες 5 εγγραφές
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
summary(df) # Περιγραφικά στατιστικά
## Murder Assault UrbanPop Rape
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
str(df) # Δομή δεδομένων
## 'data.frame': 50 obs. of 4 variables:
## $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
## $ Assault : int 236 263 294 190 276 204 110 238 335 211 ...
## $ UrbanPop: int 58 48 80 50 91 78 77 72 80 60 ...
## $ Rape : num 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
Το dataset USArrests περιέχει στατιστικά
εγκληματικότητας ανά πολιτεία των ΗΠΑ για 4 μεταβλητές:
| Μεταβλητή | Περιγραφή |
|---|---|
| Murder | Ποσοστό ανθρωποκτονιών ανά 100.000 κατοίκους |
| Assault | Ποσοστό επιθέσεων ανά 100.000 κατοίκους |
| UrbanPop | Ποσοστό του πληθυσμού που ζει σε αστικές περιοχές (%) |
| Rape | Ποσοστό βιασμών ανά 100.000 κατοίκους |
Όλες οι μεταβλητές είναι αριθμητικές.
Ένα correlation matrix σε βοηθάει ώστε με μια γρήγορη ματιά να ξέρεις ποιες είναι οι δυνατές συσχετίσεις που υπάρχουν στο dataset.
##
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
##
## lowess
Παραθέτω κάποια διαγράμματα μεταξύ κάποιων μεταβλητών-ζευγαριών για καλύτερη κατανόηση του dataset
df_scaled <- scale(df)
distances <- dist(df_scaled, method = "euclidean")
cluster_states <- hclust(distances, method = "ward.D2")
plot(cluster_states, labels = rownames(df_scaled), main = "Dendrogram of US States", cex = 0.6)
rect.hclust(cluster_states, k = 4, border = "red")
## cluster_groups
## 1 2 3 4
## 7 12 19 12
## Cluster Murder Assault UrbanPop Rape
## 1 1 14.671429 251.2857 54.28571 21.68571
## 2 2 10.966667 264.0000 76.50000 33.60833
## 3 3 6.210526 142.0526 71.26316 19.18421
## 4 4 3.091667 76.0000 52.08333 11.83333
Το παράπανω heatmap απεικονίζει τις 50 πολιτείες των ΗΠΑ, ομαδοποιημένες σύμφωνα με τα αποτελέσματα του αλγορίθμου K-means (με 4 κέντρα). Κάθε γραμμή είναι μια πολιτεία και κάθε στήλη ένα χαρακτηριστικό (Murder, Assault, UrbanPop, Rape).
Ο χρωματικός κώδικας αντανακλά την τυποποιημένη τιμή κάθε χαρακτηριστικού.
Δίπλα αριστερά από το heatmap, βλέπουμε τα clusters με διαφορετικά χρώματα.
Οι πολιτείες με παρόμοια πρότυπα εγκληματικότητας τοποθετούνται κοντά μεταξύ τους.
Παρατηρούμε πως ορισμένα clusters χαρακτηρίζονται από υψηλά επίπεδα σε όλα τα εγκλήματα (π.χ. κόκκινα τετράγωνα), ενώ άλλα είναι κυρίως “ψυχρότερα” (μπλε αποχρώσεις), δηλαδή έχουν χαμηλότερους δείκτες.
Αυτό το γράφημα επιτρέπει γρήγορη οπτική κατανόηση της διάκρισης ανάμεσα στις ομάδες και της σχέσης κάθε πολιτείας με τα υπόλοιπα χαρακτηριστικά.
Το γράφημα παραπάνω παρουσιάζει την προβολή των πολιτειών των ΗΠΑ πάνω στα δύο πρώτα κύρια συστατικά (Principal Components) της ανάλυσης PCA. Οι κύριοι άξονες PC1 και PC2 αποτυπώνουν τη μέγιστη δυνατή διασπορά των δεδομένων σε 2 διαστάσεις.
Η χρωματική διαφοροποίηση δείχνει σε ποιο cluster ανήκει κάθε πολιτεία, σύμφωνα με τα αποτελέσματα του αλγορίθμου K-means. Παρατηρούμε σαφή διαχωρισμό μεταξύ των ομάδων, κάτι που υποδεικνύει ότι τα δεδομένα έχουν εγγενή δομή και οι συσταδοποιήσεις είναι αρκετά διακριτές στο επίπεδο των κύριων συνιστωσών.
Αυτή η απεικόνιση βοηθά ιδιαίτερα στην οπτική κατανόηση των συσχετίσεων μεταξύ των πολιτειών και της σχετικής εγγύτητας ή απόστασής τους ως προς τα πρότυπα εγκληματικότητας.
Το dataset USArrests επιτρέπει τη διαχωριστική
ανάλυση των πολιτειών βάσει εγκληματικότητας.
Η ιεραρχική συσταδοποίηση παρήγαγε 4 ομάδες με διαφορετικά προφίλ.
Η K-means έδωσε παρόμοια αποτελέσματα, με πιθανώς μεγαλύτερη ομοιομορφία εντός cluster.
Το Cluster 1 περιλαμβάνει πολιτείες με πολύ υψηλά επίπεδα εγκληματικότητας, ιδίως σε Murder και Assault. Οι τιμές τους είναι μακράν μεγαλύτερες από τα άλλα clusters (π.χ. Murder ≈ 14.67, Assault ≈ 251.29). Πρόκειται πιθανόν για πολιτείες του Νότου (όπως South Carolina, Louisiana, Mississippi) που χαρακτηρίζονται από αυξημένα ποσοστά βίας.
Το Cluster 4 βρίσκεται στο αντίθετο άκρο: πολιτείες με πολύ χαμηλά επίπεδα εγκληματικότητας, με μέση τιμή Murder ≈ 3.1 και Rape ≈ 11.8. Εδώ συναντάμε πιο «ήσυχες» πολιτείες, συχνά αγροτικές ή λιγότερο αστικοποιημένες.
Το Cluster 2 εμφανίζει πολύ υψηλό μέσο όρο στην UrbanPop (≈ 76.5%), υποδεικνύοντας ότι πρόκειται για πολιτείες με έντονο αστικό πληθυσμό. Παράλληλα έχει και το υψηλότερο ποσοστό Rape (≈ 33.6).
Το Cluster 3 φαίνεται να αντιπροσωπεύει έναν ενδιάμεσο τύπο πολιτείας, με μέτριες τιμές σε όλους τους δείκτες και κυρίως χαμηλότερα ποσοστά βίας από το Cluster 1.