1. Περιγραφή Dataset

Το dataset “Multilingual Customer Support Tickets” περιλαμβάνει 20.001 αιτήματα υποστήριξης πελατών σε πολλές γλώσσες. Κάθε εγγραφή περιέχει πληροφορίες όπως θέμα, περιγραφή, απάντηση, προτεραιότητα και κατηγορία του αιτήματος.

Είναι κατάλληλο για ανάλυση επιχειρησιακών διαδικασιών υποστήριξης, εντοπισμό προβλημάτων και βελτίωση χρόνων απόκρισης.

Δες το dataset στο Kaggle

##    subject              body              answer              type          
##  Length:20000       Length:20000       Length:20000       Length:20000      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##     queue             priority           language            tag_1          
##  Length:20000       Length:20000       Length:20000       Length:20000      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##     tag_2              tag_3              tag_4              tag_5          
##  Length:20000       Length:20000       Length:20000       Length:20000      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##     tag_6              tag_7              tag_8          
##  Length:20000       Length:20000       Length:20000      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character
##  subject     body   answer     type    queue priority language    tag_1 
##        0        0        0        0        0        0        0        0 
##    tag_2    tag_3    tag_4    tag_5    tag_6    tag_7    tag_8 
##        0        0        0        0        0        0        0

2. Περιγραφή Μεταβλητών

Περιγραφή Μεταβλητών Dataset
Μεταβλητή Τύπος Περιγραφή
subject Character Θέμα του αιτήματος υποστήριξης
body Character Περιγραφή του αιτήματος
answer Character Απάντηση από τον agent
type Character Τύπος αιτήματος (π.χ. Incident, Request)
queue Character Ουρά εξυπηρέτησης
priority Character Προτεραιότητα του αιτήματος (π.χ. low, medium, high)
language Character Γλώσσα του αιτήματος
tag_1 Character Ετικέτα 1 για κατηγοριοποίηση
tag_2 Character Ετικέτα 2 για κατηγοριοποίηση
business_type Character Τύπος επιχείρησης (π.χ. B2B, B2C)
date Date/Character Ημερομηνία ή ημερομηνίες σχετικές με το αίτημα
agent Character Όνομα agent που απάντησε
customer Character Πελάτης που έκανε το αίτημα
status Character Κατάσταση του ticket (π.χ. open, closed)
response_time Numeric Χρόνος απόκρισης σε λεπτά/ώρες

3. Εξερευνητική Ανάλυση Δεδομένων

## Rows: 20,000
## Columns: 6
## $ subject  <chr> "Unvorhergesehener Absturz der Datenanalyse-Plattform", "Cust…
## $ type     <chr> "Incident", "Request", "Request", "Incident", "Request", "Req…
## $ queue    <chr> "General Inquiry", "Customer Service", "Customer Service", "C…
## $ priority <chr> "low", "medium", "medium", "high", "medium", "medium", "mediu…
## $ language <chr> "de", "en", "en", "de", "en", "en", "de", "en", "de", "de", "…
## $ answer   <chr> "Ich werde Ihnen bei der Lösung des Problems helfen, indem di…
## 
##   high    low medium 
##   7801   4055   8144
## 
##   Change Incident  Problem  Request 
##     2075     7978     4184     5763
## 
##            Billing and Payments                Customer Service 
##                            2086                            3152 
##                 General Inquiry                 Human Resources 
##                             263                             338 
##                      IT Support                 Product Support 
##                            2292                            3708 
##           Returns and Exchanges             Sales and Pre-Sales 
##                            1001                             572 
## Service Outages and Maintenance               Technical Support 
##                             764                            5824

3.1 Δομή Δεδομένων

Το dataset περιλαμβάνει 20.000 αιτήματα υποστήριξης πελατών με 6 βασικές μεταβλητές, κυρίως κειμενικού τύπου, όπως το θέμα του αιτήματος, η απάντηση και η γλώσσα. Επιπλέον, περιλαμβάνει κατηγοριοποιήσεις όπως ο τύπος του αιτήματος, η προτεραιότητα και η ουρά εξυπηρέτησης.

3.2 Κατανομή Προτεραιοτήτων και Τύπων

Από την ανάλυση της προτεραιότητας των αιτημάτων παρατηρούμε ότι η πλειονότητα είναι υψηλής (high) ή μεσαίας (medium) προτεραιότητας, ενώ λιγότερα αιτήματα έχουν χαμηλή προτεραιότητα. Ο πιο συχνός τύπος αιτήματος είναι τα «Request» (αιτήματα υποστήριξης), με σημαντικό αριθμό «Problem» και «Change» αιτημάτων να ακολουθούν.

3.3 Κατανομή ανά Υπηρεσία (Queue)

Οι περισσότερες υποθέσεις εξυπηρετούνται από τις ουρές Customer Service, Technical Support και Billing and Payments, οι οποίες αποτελούν και τις κύριες κατηγορίες υποστήριξης πελατών στην επιχείρηση.


4. Οπτικοποιήσεις Δεδομένων

4.1 Scatterplot

Σχόλιο: Το boxplot δείχνει ότι το μέσο μήκος των αιτημάτων είναι σχετικά ομοιόμορφο ανά προτεραιότητα, αλλά υπάρχουν μερικά μακροσκελή αιτήματα σε όλες τις κατηγορίες.

4.2 Boxplot

Σχόλιο: Το boxplot δείχνει ότι το μέσο μήκος των αιτημάτων είναι σχετικά ομοιόμορφο ανά προτεραιότητα, αλλά υπάρχουν μερικά μακροσκελή αιτήματα σε όλες τις κατηγορίες.

4.3 Bar Chart

Σχόλιο: Η πλειονότητα των αιτημάτων έχει μεσαία και υψηλή προτεραιότητα, ενώ λιγότερα είναι χαμηλής προτεραιότητας.

4.4 Histogram

Σχόλιο: Η πλειονότητα των αιτημάτων έχει περιγραφές μήκους μεταξύ 100 και 700 χαρακτήρων, με υψηλή συχνότητα γύρω στα 200 και 500. Υπάρχει θετική ασυμμετρία, καθώς λίγα αιτήματα έχουν πολύ μεγάλες περιγραφές που φτάνουν πάνω από 1500 χαρακτήρες.


4.5 Περιγραφική Στατιστική Μήκους Περιγραφής

## Μέσος όρος μήκους περιγραφής: 394.44
## Διάμεσος μήκους περιγραφής: 357

Σχόλιο: Το μήκος της περιγραφής των αιτημάτων κυμαίνεται γύρω στους 394 χαρακτήρες κατά μέσο όρο, με τη διάμεσο να είναι λίγο χαμηλότερη (357 χαρακτήρες). Αυτό δείχνει ότι οι περισσότερες περιγραφές είναι σχετικά σύντομες, αν και υπάρχει κάποια ασυμμετρία με μερικές μακροσκελείς περιγραφές που αυξάνουν τον μέσο όρο.


4.6 Heatmap

Σχόλιο Τα αιτήματα τύπου “Incident” είναι τα πιο συχνά και στις τρεις κατηγορίες προτεραιότητας (high, medium, low).

Η προτεραιότητα medium και high έχουν μεγαλύτερη πυκνότητα σε “Incident” και “Request” αιτήματα.

Τα αιτήματα τύπου “Problem” είναι λιγότερα συγκριτικά με τους υπόλοιπους τύπους, σε όλες τις προτεραιότητες.

Η προτεραιότητα low εμφανίζεται με μικρότερη συχνότητα σε όλους τους τύπους αιτημάτων.


5. Ανάλυση Κειμένου (Text Mining)

5.1 Καθαρισμός Δεδομένων Κειμένου

##          words Freq
## 1          for 3749
## 2         data 3731
## 3         with 3630
## 4           in 1801
## 5      support 1789
## 6      problem 1705
## 7    analytics 1451
## 8      medical 1444
## 9  integration 1424
## 10          on 1401
## 11  investment 1389
## 12         der 1344
## 13     digital 1178
## 14       issue 1166
## 15    security 1076
15 πιο συχνές λέξεις στο subject
Λέξη Συχνότητα
for 3749
data 3731
with 3630
in 1801
support 1789
problem 1705
analytics 1451
medical 1444
integration 1424
on 1401
investment 1389
der 1344
digital 1178
issue 1166
security 1076

Σχόλιο: Οι πιο συχνές λέξεις στα θέματα των αιτημάτων αφορούν βασικά ζητήματα υποστήριξης και τεχνολογίας, όπως «data», «support», «problem» και «security». Η συχνότητα εμφάνισής τους δείχνει τα κύρια θέματα που αναφέρονται στα αιτήματα

5.2 Ανάλυση Συχνότητας Λέξεων στο Περιεχόμενο Αιτημάτων (Body)

15 πιο συχνές λέξεις στο body
Λέξη Συχνότητα
und 12272
die 12203
zu 11656
your 11115
data 9432
ich 8902
problem 7548
could 7274
issue 7214
am 7088
would 7072
sie 6993
our 6861
support 6216
der 6211

Σχόλιο: Το word cloud και ο πίνακας δείχνουν τις πιο κοινές λέξεις στα αιτήματα, με τεχνικούς όρους όπως «data», «problem», «support» και «security».

6. Συμπεράσματα

Η ανάλυση του dataset «Multilingual Customer Support Tickets» μας παρείχε σημαντικές πληροφορίες σχετικά με τα χαρακτηριστικά των αιτημάτων υποστήριξης πελατών σε πολλές γλώσσες. Μετά τον καθαρισμό και την προετοιμασία των δεδομένων, εντοπίσαμε βασικές μεταβλητές που περιγράφουν το είδος του αιτήματος, την προτεραιότητα, την ουρά εξυπηρέτησης και τη γλώσσα.

Στη διερευνητική ανάλυση αποτυπώσαμε τη δομή και τη βασική κατανομή των μεταβλητών, αναδεικνύοντας κυρίως μεσαίες και υψηλές προτεραιότητες στα αιτήματα, με σημαντικό αριθμό αιτημάτων τύπου «Incident». Η κατανομή του μήκους των περιγραφών των αιτημάτων παρουσίασε ασυμμετρία, με πλειοψηφία αιτημάτων μέτριου μήκους.

Μέσω της ανάλυσης κειμένου, αναδείχθηκαν οι πιο συχνές λέξεις στα πεδία των αιτημάτων, προσφέροντας εικόνα για τις κύριες θεματικές ενότητες και λέξεις-κλειδιά που εμφανίζονται στα αιτήματα υποστήριξης. Η χρήση πίνακα συχνοτήτων και wordcloud βοήθησε στην οπτικοποίηση και εύκολη κατανόηση των βασικών όρων.

Συνολικά, οι αναλύσεις μας έθεσαν τα θεμέλια για περαιτέρω ενέργειες όπως μοντελοποίηση, κατηγοριοποίηση και βελτιστοποίηση διαδικασιών υποστήριξης, με δεδομένα δομημένα και ερμηνευμένα κατάλληλα.