Περιγραφή του Dataset

Το παρόν dataset απεικονίζει κριτικές από 980 χρήστες της TripAdvisor που αφορούν τον προορισμό της Ανατολικής Ασίας. Οι κριτικές είναι βασισμένες σε 10 κατηγορίες που οι χρήστες βαθμολόγησαν με άριστα το 4, πολύ καλα το 3, μέτρια το 2, χαμηλά το 1 και καθόλου το 0. Μέσα στις κατηγορίες αυτές περικλείονται διάφοροι τομείς για τον τουρισμό της Ανατολικής Ασίας όπως για παράδειγμα οι παραλίες, τα ξενοδοχεία (φιλοξενεία), το φαγητό, τα μουσεία, τα κέντρα αναψυχής και χορού και άλλα. Το dataset αυτό έχει παρθεί από το UCI Machine Learning Repository.

  • Αιτιολόγηση της επιλογής σε σχέση με την επιχειρηματική αναλυτική:

Ο κύριος στόχος του επιμέρους συνόλου δεδομένων είναι να κατηγοριοποιήσουμε τις κριτικές των επιμέρους χρηστών έτσι ώστε όταν ένας νέος χρήστης θα θελήσει να ταξιδέψει στην Ανατολική Ασία να μπορεί να έχει μία άποψη για τις διάφορες κατηγορίες που τον ενδιαφέρουν από τους άλλους χρήστες και να αποφασίσει αν αξίζει να την επισκευθεί.

  • Πιθανά επιχειρηματικά ερωτήματα που θα μπορούσαν να απαντηθούν:

-Ποίος τουριστικός τομέας είναι ο καλύτερος για τις προτιμήσεις ενος νέου χρήστη;

-Σε πόσες κατηγορίες θα χωριστούν οι προτιμήσεις;

-Ποιά κατηγορία έχει τα υψηλότερα ratings και ποία τα χαμηλότερα;

  • Περιγραφή Μεταβλητών:
1.User ID: Μοναδικός αριθμός του χρήστη που έκανε κριτική.
2.Category 1: Κριτική χρήστη πάνω σε γκαλερί.
3.Category 2: Κριτική χρήστη πάνω σε κέντρα αναψυχής και χορού.
4.Category 3: Κριτική χρήστη πάνω σε μαγαζιά με χυμούς.
5.Category 4: Κριτική χρήστη πάνω στα εστιατόρια.
6.Category 5: Κριτική χρήστη πάνω σε μουσεία.
7.Category 6: Κριτική χρήστη πάνω σε ξενοδοχεία.
8.Category 7: Κριτική χρήστη πάνω σε πάρκα και σημεία για πίκνικ.
9.Category 8: Κριτική χρήστη πάνω στις παραλίες.
10.Category 9: Κριτική χρήστη πάνω σε θέατρα.
11.Category 10: Κριτική χρήστη πάνω σε θρησκευτικά κτήρια.

Υπολογισμός και παρουσίαση περιγραφικών στατιστικών:

summary(reviews)
##      User            ArtGalleries      DanceClubs      JuiceBars    
##  Length:980         Min.   :0.3400   Min.   :0.000   Min.   :0.130  
##  Class :character   1st Qu.:0.6700   1st Qu.:1.080   1st Qu.:0.270  
##  Mode  :character   Median :0.8300   Median :1.280   Median :0.820  
##                     Mean   :0.8932   Mean   :1.353   Mean   :1.013  
##                     3rd Qu.:1.0200   3rd Qu.:1.560   3rd Qu.:1.573  
##                     Max.   :3.2200   Max.   :3.640   Max.   :3.620  
##   Restaurants        Museums          Resorts          Parks      
##  Min.   :0.1500   Min.   :0.0600   Min.   :0.140   Min.   :3.160  
##  1st Qu.:0.4100   1st Qu.:0.6400   1st Qu.:1.460   1st Qu.:3.180  
##  Median :0.5000   Median :0.9000   Median :1.800   Median :3.180  
##  Mean   :0.5325   Mean   :0.9397   Mean   :1.843   Mean   :3.181  
##  3rd Qu.:0.5800   3rd Qu.:1.2000   3rd Qu.:2.200   3rd Qu.:3.180  
##  Max.   :3.4400   Max.   :3.3000   Max.   :3.760   Max.   :3.210  
##     Beaches         Theatres     ReligiousInstitutions
##  Min.   :2.420   Min.   :0.740   Min.   :2.140        
##  1st Qu.:2.740   1st Qu.:1.310   1st Qu.:2.540        
##  Median :2.820   Median :1.540   Median :2.780        
##  Mean   :2.835   Mean   :1.569   Mean   :2.799        
##  3rd Qu.:2.910   3rd Qu.:1.760   3rd Qu.:3.040        
##  Max.   :3.390   Max.   :3.170   Max.   :3.660

Συσταδοποίηση

Ιεραρχική συσταδοποίηση

Θα εφαρμόσουμε ιεραρχική συσταδοποίηση στον dataset υπολογίζοντας πρώτα τις ευκλείδιες αποστάσεις όλων των συνολικών παρατηρήσεων και μετά θα κάνουμε ιεραρχική συσταδοποίηση για να εμφανιστεί μια πρώτη εικόνα των συστάδων.

distance = dist(reviews[2:11], method = "euclidean")
clusterReviews = hclust(distance, method = "ward.D2")
plot(clusterReviews)

Στην συνέχεια θα ορίσουμε 8 clusters για την πραγματοποίηση του k-means clustering με την χρήση της συνάρτησης cutree.

clusterGroups = cutree(clusterReviews, k = 8)

Ας δούμε αρχικά το ποσοστό των τουριστικών κατηγοριών για κάθε cluster:

  • Art Galleries:
##         1         2         3         4         5         6         7         8 
## 0.8253797 1.0342564 0.7158065 0.9833051 1.0575641 0.8072832 0.8243333 0.9893333

  • Dance Clubs:
##        1        2        3        4        5        6        7        8 
## 1.288861 1.070769 1.466667 1.084068 2.099487 1.525318 1.253333 2.210667

  • Juice Bars:
##         1         2         3         4         5         6         7         8 
## 2.3427848 0.3929231 0.2622581 1.2520339 1.5511538 0.3820231 1.1871333 0.5986667

  • Restaurants:
##         1         2         3         4         5         6         7         8 
## 0.5599367 0.5107692 0.4304301 0.5588983 0.5380769 0.5049133 0.4404000 2.1613333

  • Museums:
##         1         2         3         4         5         6         7         8 
## 1.0962025 0.7024615 0.5103226 1.2944068 1.2620513 1.0439306 0.7510667 1.2573333

  • Resorts:
##        1        2        3        4        5        6        7        8 
## 2.140380 1.526974 1.123441 2.329576 2.305641 2.031387 1.526800 2.029333

  • Park and Picnic spots:
##        1        2        3        4        5        6        7        8 
## 3.191899 3.175846 3.175269 3.182119 3.186154 3.177457 3.179733 3.182667

  • Beaches:
##        1        2        3        4        5        6        7        8 
## 2.801392 2.872667 2.820323 2.849237 2.797179 2.854740 2.828933 2.712000

  • Theatres:
##        1        2        3        4        5        6        7        8 
## 1.583038 1.560359 1.553441 1.600254 1.571154 1.764046 1.345667 1.385333

  • Religious Institutions:
##        1        2        3        4        5        6        7        8 
## 2.539114 2.977641 2.968602 2.623559 2.553077 2.907514 2.910800 2.466667

Από τις πάραπάνω κατηγορίες καταλαβαίνουμε ότι:

  1. Η κατηγορία με τα υψηλότερα ratings και reviews είναι η κατηγορία των πάρκων και των τοπίων για πίκνικ. Αυτό σημαίνει ότι οι 980 χρήστες που έδωσαν την κριτική τους προτιμούν την Ανατολική Ασία για τα υπέροχα τοπία και πάρκα της που μπορεί να επισκευθεί κάποιος. Έχει ξεπεράσει τις υπόλοιπες κατηγορίες με αρκετά ψηλότερο ποσοστό.

  2. Η δεύτερη κατηγορία που προτίμησαν οι χρήστες είναι η κατηγορία των παραλίων, με λίγο πιο χαμηλό ποσοστό από την κατηγορία των πάρκων αλλά πάλι ξεχωρίζει από τις υπόλοιπες. Ως επι τον πλήστον, οι παραλίες είναι ένα εξίσου κρίσημο κριτήριο που αξίζει για να ταξιδέψει κάποιος στην Ανατολική Ασία.

  3. Η κατηγορία με τις χαμηλότερες κριτικές είναι τα εστιατόρια. Τα περισσότερα εστιατόρια έχουν πολύ χαμηλές κριτικές γι’ αυτό και είναι τόσο χαμηλό. Όμως, στο 8ο cluster το ποσοστό των κριτικών των εστιατορίων είναι υψηλό (2,16) οπότε υπάρχει μια κατηγορία εστιατορίων που έχουν προσητές κριτικές και μάλλον αυτά θα είναι η καλύτερη επιλογή κάποιου νέου ταξιδιώτη.

  4. Η δεύτερη χαμηλότερη κατηγορία είναι τα Art Galleries, πράγμα που σημαίνει ότι η Ανατολική Ασία δεν είναι αρκετά φημισμένη για τις γκαλερί της οπότε για κάποιον που του αρέσει πολύ να ταξιδεύει σε μια χώρα για την τέχνη της, θα ήταν προτιμότερο η Ανατολική Ασία να μην είναι στα σχέδια του.

Τέλος θα δούμε για το κάθε cluster ποία τουριστική κατηγορία υπερτερεί από τις υπόλοιπες με την χρήση της συνάρτησης colMeans.

##Cluster 1

colMeans(subset(reviews[2:11], clusterGroups == 1)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             0.8253797             1.2888608             2.3427848 
##           Restaurants               Museums               Resorts 
##             0.5599367             1.0962025             2.1403797 
##                 Parks               Beaches              Theatres 
##             3.1918987             2.8013924             1.5830380 
## ReligiousInstitutions 
##             2.5391139

##Cluster 2

colMeans(subset(reviews[2:11], clusterGroups == 2)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             1.0342564             1.0707692             0.3929231 
##           Restaurants               Museums               Resorts 
##             0.5107692             0.7024615             1.5269744 
##                 Parks               Beaches              Theatres 
##             3.1758462             2.8726667             1.5603590 
## ReligiousInstitutions 
##             2.9776410

##Cluster 3

colMeans(subset(reviews[2:11], clusterGroups == 3)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             0.7158065             1.4666667             0.2622581 
##           Restaurants               Museums               Resorts 
##             0.4304301             0.5103226             1.1234409 
##                 Parks               Beaches              Theatres 
##             3.1752688             2.8203226             1.5534409 
## ReligiousInstitutions 
##             2.9686022

##Cluster 4

colMeans(subset(reviews[2:11], clusterGroups == 4)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             0.9833051             1.0840678             1.2520339 
##           Restaurants               Museums               Resorts 
##             0.5588983             1.2944068             2.3295763 
##                 Parks               Beaches              Theatres 
##             3.1821186             2.8492373             1.6002542 
## ReligiousInstitutions 
##             2.6235593

##Cluster 5

colMeans(subset(reviews[2:11], clusterGroups == 5)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             1.0575641             2.0994872             1.5511538 
##           Restaurants               Museums               Resorts 
##             0.5380769             1.2620513             2.3056410 
##                 Parks               Beaches              Theatres 
##             3.1861538             2.7971795             1.5711538 
## ReligiousInstitutions 
##             2.5530769

##Cluster 6

colMeans(subset(reviews[2:11], clusterGroups == 6)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             0.8072832             1.5253179             0.3820231 
##           Restaurants               Museums               Resorts 
##             0.5049133             1.0439306             2.0313873 
##                 Parks               Beaches              Theatres 
##             3.1774566             2.8547399             1.7640462 
## ReligiousInstitutions 
##             2.9075145

##Cluster 7



colMeans(subset(reviews[2:11], clusterGroups == 7)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             0.8243333             1.2533333             1.1871333 
##           Restaurants               Museums               Resorts 
##             0.4404000             0.7510667             1.5268000 
##                 Parks               Beaches              Theatres 
##             3.1797333             2.8289333             1.3456667 
## ReligiousInstitutions 
##             2.9108000

##Cluster 8

colMeans(subset(reviews[2:11], clusterGroups == 8)) 
##          ArtGalleries            DanceClubs             JuiceBars 
##             0.9893333             2.2106667             0.5986667 
##           Restaurants               Museums               Resorts 
##             2.1613333             1.2573333             2.0293333 
##                 Parks               Beaches              Theatres 
##             3.1826667             2.7120000             1.3853333 
## ReligiousInstitutions 
##             2.4666667

Από τα 8 clusters φαίνεται ότι:

  1. Οι περισσότεροι χρήστες που έκαναν κρητική είναι υπέρ της εξερεύνησης, της χαλάρωσης και της διασκέδασης αλλά είναι κατά της τέχνης.

  2. Οι περισσότεροι χρήστες δεν έκαναν καλή κριτική στην κατηγορία των εστιατορίων παρά μόνο εκείνοι που βρίσκονται στο 8ο cluster που τα προτίμησαν περισσότερο από τα μουσεία και τα θέατρα.

  3. Τα κέντρα αναψυχής και χορού έχουν γενικά μέτρια δημοτικότητα αλλά στα clusters 5 και 8 κατατάσσονται πιο δημοφιλές από τα μουσεία, τα μαγαζιά με χυμούς και τα θέατρα πράγμα που καθιστά τους χρήστες εκείνων των clusters πιο λάτρεις του χωρού και της αναψυχής/νυχτερινής εξόδου.

  4. Επιπρόσθετα, η κατηγορία των μουσείων έχει γενικά μέτρια προς χαμηλή δημοτικότητα πράγμα που σημαίνει ότι η Ανατολική Ασία δεν είναι γνωστή για τα μουσεία και τους αρχαιολογικούς της χώρους και αυτοί που υπάρχουν να μην τραβούν τόσο το ενδιαφέρον στους τουρίστες.