Στο dataset USArrests

1. ΔΙΕΥΡΕΥΝΗΣΗ ΤΟΥ DATASET

ΕΙΣΑΓΩΓΗ

Σε αυτή την εργασία εφαρμόζουμε μεθόδους συσταδοποίησης σε ένα γνωστό dataset της R, το USArrests. Πρόκειται για ένα προεγκατεστημένο dataset της R, όπως πολλά άλλα, που χρησιμοποιείται για σκοπούς εξοικείωσης και επίδειξης. Το επέλεξα επειδή είναι ιδιαίτερα κατάλληλο για εφαρμογή τεχνικών clustering. Στόχος είναι η κατανόηση των ομοιοτήτων μεταξύ των πολιτειών των ΗΠΑ ως προς τα ποσοστά εγκληματικότητας.

Το αρχείο περιλαμβάνει: - Περιγραφή των μεταβλητών - Εξερεύνηση του dataset με γραφήματα (scatterplots, histograms, barplots, heatmaps) - Ιεραρχική συσταδοποίηση (Hierarchical Clustering) - Προαιρετικά: K-means clustering


ΑΡΧΙΚΕΣ ΔΙΑΓΝΩΣΤΙΚΕΣ ΕΝΤΟΛΕΣ

head(df)            # Πρώτες 5 εγγραφές
##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7
summary(df)         # Περιγραφικά στατιστικά
##      Murder          Assault         UrbanPop          Rape      
##  Min.   : 0.800   Min.   : 45.0   Min.   :32.00   Min.   : 7.30  
##  1st Qu.: 4.075   1st Qu.:109.0   1st Qu.:54.50   1st Qu.:15.07  
##  Median : 7.250   Median :159.0   Median :66.00   Median :20.10  
##  Mean   : 7.788   Mean   :170.8   Mean   :65.54   Mean   :21.23  
##  3rd Qu.:11.250   3rd Qu.:249.0   3rd Qu.:77.75   3rd Qu.:26.18  
##  Max.   :17.400   Max.   :337.0   Max.   :91.00   Max.   :46.00
str(df)             # Δομή δεδομένων
## 'data.frame':    50 obs. of  4 variables:
##  $ Murder  : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
##  $ Assault : int  236 263 294 190 276 204 110 238 335 211 ...
##  $ UrbanPop: int  58 48 80 50 91 78 77 72 80 60 ...
##  $ Rape    : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...

ΠΕΡΙΓΡΑΦΗ ΜΕΤΑΒΛΗΤΩΝ

Το dataset USArrests περιέχει στατιστικά εγκληματικότητας ανά πολιτεία των ΗΠΑ για 4 μεταβλητές:

Μεταβλητή Περιγραφή
Murder Ποσοστό ανθρωποκτονιών ανά 100.000 κατοίκους
Assault Ποσοστό επιθέσεων ανά 100.000 κατοίκους
UrbanPop Ποσοστό του πληθυσμού που ζει σε αστικές περιοχές (%)
Rape Ποσοστό βιασμών ανά 100.000 κατοίκους

Όλες οι μεταβλητές είναι αριθμητικές.


ΠΙΝΑΚΑΣ ΣΥΣΧΕΤΙΣΕΩΝ

Ένα correlation matrix σε βοηθάει ώστε με μια γρήγορη ματιά να ξέρεις ποιες είναι οι δυνατές συσχετίσεις που υπάρχουν στο dataset.

## 
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
## 
##     lowess

ΔΙΑΓΡΑΜΜΑΤΑ

Παραθέτω κάποια διαγράμματα μεταξύ κάποιων μεταβλητών-ζευγαριών για καλύτερη κατανόηση του dataset

Ιστόγραμμα (Histogram)

Scatterplot μεταξύ Assault και Murder

Barplot: Urban Population ανά Πολιτεία


2. ΔΗΜΙΟΥΡΓΙΑ ΔΕΝΤΡΟΥ ΣΥΣΤΑΔΟΠΟΙΗΣΗΣ

ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ ΜΕΤΑΒΛΗΤΩΝ

df_scaled <- scale(df)

HIERARCHICAL CLUSTERING

distances <- dist(df_scaled, method = "euclidean")
cluster_states <- hclust(distances, method = "ward.D2")

plot(cluster_states, labels = rownames(df_scaled), main = "Dendrogram of US States", cex = 0.6)
rect.hclust(cluster_states, k = 4, border = "red")


ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ

## cluster_groups
##  1  2  3  4 
##  7 12 19 12
##   Cluster    Murder  Assault UrbanPop     Rape
## 1       1 14.671429 251.2857 54.28571 21.68571
## 2       2 10.966667 264.0000 76.50000 33.60833
## 3       3  6.210526 142.0526 71.26316 19.18421
## 4       4  3.091667  76.0000 52.08333 11.83333

ΠΡΟΑΙΡΕΤΙΚΑ ΜΕ K-means



Το παράπανω heatmap απεικονίζει τις 50 πολιτείες των ΗΠΑ, ομαδοποιημένες σύμφωνα με τα αποτελέσματα του αλγορίθμου K-means (με 4 κέντρα). Κάθε γραμμή είναι μια πολιτεία και κάθε στήλη ένα χαρακτηριστικό (Murder, Assault, UrbanPop, Rape).

Ο χρωματικός κώδικας αντανακλά την τυποποιημένη τιμή κάθε χαρακτηριστικού.

Δίπλα αριστερά από το heatmap, βλέπουμε τα clusters με διαφορετικά χρώματα.

Οι πολιτείες με παρόμοια πρότυπα εγκληματικότητας τοποθετούνται κοντά μεταξύ τους.

Παρατηρούμε πως ορισμένα clusters χαρακτηρίζονται από υψηλά επίπεδα σε όλα τα εγκλήματα (π.χ. κόκκινα τετράγωνα), ενώ άλλα είναι κυρίως “ψυχρότερα” (μπλε αποχρώσεις), δηλαδή έχουν χαμηλότερους δείκτες.

Αυτό το γράφημα επιτρέπει γρήγορη οπτική κατανόηση της διάκρισης ανάμεσα στις ομάδες και της σχέσης κάθε πολιτείας με τα υπόλοιπα χαρακτηριστικά.



Το γράφημα παραπάνω παρουσιάζει την προβολή των πολιτειών των ΗΠΑ πάνω στα δύο πρώτα κύρια συστατικά (Principal Components) της ανάλυσης PCA. Οι κύριοι άξονες PC1 και PC2 αποτυπώνουν τη μέγιστη δυνατή διασπορά των δεδομένων σε 2 διαστάσεις.

Η χρωματική διαφοροποίηση δείχνει σε ποιο cluster ανήκει κάθε πολιτεία, σύμφωνα με τα αποτελέσματα του αλγορίθμου K-means. Παρατηρούμε σαφή διαχωρισμό μεταξύ των ομάδων, κάτι που υποδεικνύει ότι τα δεδομένα έχουν εγγενή δομή και οι συσταδοποιήσεις είναι αρκετά διακριτές στο επίπεδο των κύριων συνιστωσών.

Αυτή η απεικόνιση βοηθά ιδιαίτερα στην οπτική κατανόηση των συσχετίσεων μεταξύ των πολιτειών και της σχετικής εγγύτητας ή απόστασής τους ως προς τα πρότυπα εγκληματικότητας.


3. ΣΥΜΠΕΡΑΣΜΑΤΑ

  • Το dataset USArrests επιτρέπει τη διαχωριστική ανάλυση των πολιτειών βάσει εγκληματικότητας.

  • Η ιεραρχική συσταδοποίηση παρήγαγε 4 ομάδες με διαφορετικά προφίλ.

  • Η K-means έδωσε παρόμοια αποτελέσματα, με πιθανώς μεγαλύτερη ομοιομορφία εντός cluster.

  • Το Cluster 1 περιλαμβάνει πολιτείες με πολύ υψηλά επίπεδα εγκληματικότητας, ιδίως σε Murder και Assault. Οι τιμές τους είναι μακράν μεγαλύτερες από τα άλλα clusters (π.χ. Murder ≈ 14.67, Assault ≈ 251.29). Πρόκειται πιθανόν για πολιτείες του Νότου (όπως South Carolina, Louisiana, Mississippi) που χαρακτηρίζονται από αυξημένα ποσοστά βίας.

  • Το Cluster 4 βρίσκεται στο αντίθετο άκρο: πολιτείες με πολύ χαμηλά επίπεδα εγκληματικότητας, με μέση τιμή Murder ≈ 3.1 και Rape ≈ 11.8. Εδώ συναντάμε πιο «ήσυχες» πολιτείες, συχνά αγροτικές ή λιγότερο αστικοποιημένες.

  • Το Cluster 2 εμφανίζει πολύ υψηλό μέσο όρο στην UrbanPop (≈ 76.5%), υποδεικνύοντας ότι πρόκειται για πολιτείες με έντονο αστικό πληθυσμό. Παράλληλα έχει και το υψηλότερο ποσοστό Rape (≈ 33.6).

  • Το Cluster 3 φαίνεται να αντιπροσωπεύει έναν ενδιάμεσο τύπο πολιτείας, με μέτριες τιμές σε όλους τους δείκτες και κυρίως χαμηλότερα ποσοστά βίας από το Cluster 1.