Το παρόν dataset απεικονίζει κριτικές από 980 χρήστες της TripAdvisor που αφορούν τον προορισμό της Ανατολικής Ασίας. Οι κριτικές είναι βασισμένες σε 10 κατηγορίες που οι χρήστες βαθμολόγησαν με άριστα το 4, πολύ καλα το 3, μέτρια το 2, χαμηλά το 1 και καθόλου το 0. Μέσα στις κατηγορίες αυτές περικλείονται διάφοροι τομείς για τον τουρισμό της Ανατολικής Ασίας όπως για παράδειγμα οι παραλίες, τα ξενοδοχεία (φιλοξενεία), το φαγητό, τα μουσεία, τα κέντρα αναψυχής και χορού και άλλα. Το dataset αυτό έχει παρθεί από το UCI Machine Learning Repository.
Ο κύριος στόχος του επιμέρους συνόλου δεδομένων είναι να κατηγοριοποιήσουμε τις κριτικές των επιμέρους χρηστών έτσι ώστε όταν ένας νέος χρήστης θα θελήσει να ταξιδέψει στην Ανατολική Ασία να μπορεί να έχει μία άποψη για τις διάφορες κατηγορίες που τον ενδιαφέρουν από τους άλλους χρήστες και να αποφασίσει αν αξίζει να την επισκευθεί.
-Ποίος τουριστικός τομέας είναι ο καλύτερος για τις προτιμήσεις ενος νέου χρήστη;
-Σε πόσες κατηγορίες θα χωριστούν οι προτιμήσεις;
-Ποιά κατηγορία έχει τα υψηλότερα ratings και ποία τα χαμηλότερα;
1.User ID: Μοναδικός αριθμός του χρήστη που έκανε κριτική.
2.Category 1: Κριτική χρήστη πάνω σε γκαλερί.
3.Category 2: Κριτική χρήστη πάνω σε κέντρα αναψυχής και χορού.
4.Category 3: Κριτική χρήστη πάνω σε μαγαζιά με χυμούς.
5.Category 4: Κριτική χρήστη πάνω στα εστιατόρια.
6.Category 5: Κριτική χρήστη πάνω σε μουσεία.
7.Category 6: Κριτική χρήστη πάνω σε ξενοδοχεία.
8.Category 7: Κριτική χρήστη πάνω σε πάρκα και σημεία για πίκνικ.
9.Category 8: Κριτική χρήστη πάνω στις παραλίες.
10.Category 9: Κριτική χρήστη πάνω σε θέατρα.
11.Category 10: Κριτική χρήστη πάνω σε θρησκευτικά κτήρια.
summary(reviews)
## User ArtGalleries DanceClubs JuiceBars
## Length:980 Min. :0.3400 Min. :0.000 Min. :0.130
## Class :character 1st Qu.:0.6700 1st Qu.:1.080 1st Qu.:0.270
## Mode :character Median :0.8300 Median :1.280 Median :0.820
## Mean :0.8932 Mean :1.353 Mean :1.013
## 3rd Qu.:1.0200 3rd Qu.:1.560 3rd Qu.:1.573
## Max. :3.2200 Max. :3.640 Max. :3.620
## Restaurants Museums Resorts Parks
## Min. :0.1500 Min. :0.0600 Min. :0.140 Min. :3.160
## 1st Qu.:0.4100 1st Qu.:0.6400 1st Qu.:1.460 1st Qu.:3.180
## Median :0.5000 Median :0.9000 Median :1.800 Median :3.180
## Mean :0.5325 Mean :0.9397 Mean :1.843 Mean :3.181
## 3rd Qu.:0.5800 3rd Qu.:1.2000 3rd Qu.:2.200 3rd Qu.:3.180
## Max. :3.4400 Max. :3.3000 Max. :3.760 Max. :3.210
## Beaches Theatres ReligiousInstitutions
## Min. :2.420 Min. :0.740 Min. :2.140
## 1st Qu.:2.740 1st Qu.:1.310 1st Qu.:2.540
## Median :2.820 Median :1.540 Median :2.780
## Mean :2.835 Mean :1.569 Mean :2.799
## 3rd Qu.:2.910 3rd Qu.:1.760 3rd Qu.:3.040
## Max. :3.390 Max. :3.170 Max. :3.660
Θα εφαρμόσουμε ιεραρχική συσταδοποίηση στον dataset υπολογίζοντας πρώτα τις ευκλείδιες αποστάσεις όλων των συνολικών παρατηρήσεων και μετά θα κάνουμε ιεραρχική συσταδοποίηση για να εμφανιστεί μια πρώτη εικόνα των συστάδων.
distance = dist(reviews[2:11], method = "euclidean")
clusterReviews = hclust(distance, method = "ward.D2")
plot(clusterReviews)
Στην συνέχεια θα ορίσουμε 8 clusters για την πραγματοποίηση του k-means clustering με την χρήση της συνάρτησης cutree.
clusterGroups = cutree(clusterReviews, k = 8)
Ας δούμε αρχικά το ποσοστό των τουριστικών κατηγοριών για κάθε cluster:
## 1 2 3 4 5 6 7 8
## 0.8253797 1.0342564 0.7158065 0.9833051 1.0575641 0.8072832 0.8243333 0.9893333
## 1 2 3 4 5 6 7 8
## 1.288861 1.070769 1.466667 1.084068 2.099487 1.525318 1.253333 2.210667
## 1 2 3 4 5 6 7 8
## 2.3427848 0.3929231 0.2622581 1.2520339 1.5511538 0.3820231 1.1871333 0.5986667
## 1 2 3 4 5 6 7 8
## 0.5599367 0.5107692 0.4304301 0.5588983 0.5380769 0.5049133 0.4404000 2.1613333
## 1 2 3 4 5 6 7 8
## 1.0962025 0.7024615 0.5103226 1.2944068 1.2620513 1.0439306 0.7510667 1.2573333
## 1 2 3 4 5 6 7 8
## 2.140380 1.526974 1.123441 2.329576 2.305641 2.031387 1.526800 2.029333
## 1 2 3 4 5 6 7 8
## 3.191899 3.175846 3.175269 3.182119 3.186154 3.177457 3.179733 3.182667
## 1 2 3 4 5 6 7 8
## 2.801392 2.872667 2.820323 2.849237 2.797179 2.854740 2.828933 2.712000
## 1 2 3 4 5 6 7 8
## 1.583038 1.560359 1.553441 1.600254 1.571154 1.764046 1.345667 1.385333
## 1 2 3 4 5 6 7 8
## 2.539114 2.977641 2.968602 2.623559 2.553077 2.907514 2.910800 2.466667
Από τις πάραπάνω κατηγορίες καταλαβαίνουμε ότι:
Η κατηγορία με τα υψηλότερα ratings και reviews είναι η κατηγορία των πάρκων και των τοπίων για πίκνικ. Αυτό σημαίνει ότι οι 980 χρήστες που έδωσαν την κριτική τους προτιμούν την Ανατολική Ασία για τα υπέροχα τοπία και πάρκα της που μπορεί να επισκευθεί κάποιος. Έχει ξεπεράσει τις υπόλοιπες κατηγορίες με αρκετά ψηλότερο ποσοστό.
Η δεύτερη κατηγορία που προτίμησαν οι χρήστες είναι η κατηγορία των παραλίων, με λίγο πιο χαμηλό ποσοστό από την κατηγορία των πάρκων αλλά πάλι ξεχωρίζει από τις υπόλοιπες. Ως επι τον πλήστον, οι παραλίες είναι ένα εξίσου κρίσημο κριτήριο που αξίζει για να ταξιδέψει κάποιος στην Ανατολική Ασία.
Η κατηγορία με τις χαμηλότερες κριτικές είναι τα εστιατόρια. Τα περισσότερα εστιατόρια έχουν πολύ χαμηλές κριτικές γι’ αυτό και είναι τόσο χαμηλό. Όμως, στο 8ο cluster το ποσοστό των κριτικών των εστιατορίων είναι υψηλό (2,16) οπότε υπάρχει μια κατηγορία εστιατορίων που έχουν προσητές κριτικές και μάλλον αυτά θα είναι η καλύτερη επιλογή κάποιου νέου ταξιδιώτη.
Η δεύτερη χαμηλότερη κατηγορία είναι τα Art Galleries, πράγμα που σημαίνει ότι η Ανατολική Ασία δεν είναι αρκετά φημισμένη για τις γκαλερί της οπότε για κάποιον που του αρέσει πολύ να ταξιδεύει σε μια χώρα για την τέχνη της, θα ήταν προτιμότερο η Ανατολική Ασία να μην είναι στα σχέδια του.
Τέλος θα δούμε για το κάθε cluster ποία τουριστική κατηγορία υπερτερεί από τις υπόλοιπες με την χρήση της συνάρτησης colMeans.
##Cluster 1
colMeans(subset(reviews[2:11], clusterGroups == 1))
## ArtGalleries DanceClubs JuiceBars
## 0.8253797 1.2888608 2.3427848
## Restaurants Museums Resorts
## 0.5599367 1.0962025 2.1403797
## Parks Beaches Theatres
## 3.1918987 2.8013924 1.5830380
## ReligiousInstitutions
## 2.5391139
##Cluster 2
colMeans(subset(reviews[2:11], clusterGroups == 2))
## ArtGalleries DanceClubs JuiceBars
## 1.0342564 1.0707692 0.3929231
## Restaurants Museums Resorts
## 0.5107692 0.7024615 1.5269744
## Parks Beaches Theatres
## 3.1758462 2.8726667 1.5603590
## ReligiousInstitutions
## 2.9776410
##Cluster 3
colMeans(subset(reviews[2:11], clusterGroups == 3))
## ArtGalleries DanceClubs JuiceBars
## 0.7158065 1.4666667 0.2622581
## Restaurants Museums Resorts
## 0.4304301 0.5103226 1.1234409
## Parks Beaches Theatres
## 3.1752688 2.8203226 1.5534409
## ReligiousInstitutions
## 2.9686022
##Cluster 4
colMeans(subset(reviews[2:11], clusterGroups == 4))
## ArtGalleries DanceClubs JuiceBars
## 0.9833051 1.0840678 1.2520339
## Restaurants Museums Resorts
## 0.5588983 1.2944068 2.3295763
## Parks Beaches Theatres
## 3.1821186 2.8492373 1.6002542
## ReligiousInstitutions
## 2.6235593
##Cluster 5
colMeans(subset(reviews[2:11], clusterGroups == 5))
## ArtGalleries DanceClubs JuiceBars
## 1.0575641 2.0994872 1.5511538
## Restaurants Museums Resorts
## 0.5380769 1.2620513 2.3056410
## Parks Beaches Theatres
## 3.1861538 2.7971795 1.5711538
## ReligiousInstitutions
## 2.5530769
##Cluster 6
colMeans(subset(reviews[2:11], clusterGroups == 6))
## ArtGalleries DanceClubs JuiceBars
## 0.8072832 1.5253179 0.3820231
## Restaurants Museums Resorts
## 0.5049133 1.0439306 2.0313873
## Parks Beaches Theatres
## 3.1774566 2.8547399 1.7640462
## ReligiousInstitutions
## 2.9075145
##Cluster 7
colMeans(subset(reviews[2:11], clusterGroups == 7))
## ArtGalleries DanceClubs JuiceBars
## 0.8243333 1.2533333 1.1871333
## Restaurants Museums Resorts
## 0.4404000 0.7510667 1.5268000
## Parks Beaches Theatres
## 3.1797333 2.8289333 1.3456667
## ReligiousInstitutions
## 2.9108000
##Cluster 8
colMeans(subset(reviews[2:11], clusterGroups == 8))
## ArtGalleries DanceClubs JuiceBars
## 0.9893333 2.2106667 0.5986667
## Restaurants Museums Resorts
## 2.1613333 1.2573333 2.0293333
## Parks Beaches Theatres
## 3.1826667 2.7120000 1.3853333
## ReligiousInstitutions
## 2.4666667
Από τα 8 clusters φαίνεται ότι:
Οι περισσότεροι χρήστες που έκαναν κρητική είναι υπέρ της εξερεύνησης, της χαλάρωσης και της διασκέδασης αλλά είναι κατά της τέχνης.
Οι περισσότεροι χρήστες δεν έκαναν καλή κριτική στην κατηγορία των εστιατορίων παρά μόνο εκείνοι που βρίσκονται στο 8ο cluster που τα προτίμησαν περισσότερο από τα μουσεία και τα θέατρα.
Τα κέντρα αναψυχής και χορού έχουν γενικά μέτρια δημοτικότητα αλλά στα clusters 5 και 8 κατατάσσονται πιο δημοφιλές από τα μουσεία, τα μαγαζιά με χυμούς και τα θέατρα πράγμα που καθιστά τους χρήστες εκείνων των clusters πιο λάτρεις του χωρού και της αναψυχής/νυχτερινής εξόδου.
Επιπρόσθετα, η κατηγορία των μουσείων έχει γενικά μέτρια προς χαμηλή δημοτικότητα πράγμα που σημαίνει ότι η Ανατολική Ασία δεν είναι γνωστή για τα μουσεία και τους αρχαιολογικούς της χώρους και αυτοί που υπάρχουν να μην τραβούν τόσο το ενδιαφέρον στους τουρίστες.