Εργασία 004

Για την παρούσα εργασία έγινε χρήση του dataset “Global Student Placement & Salary Dataset” (https://www.kaggle.com/datasets/rakesh630/global-student-placement-2025-dataset?resource=download) που υπάρχει στο Koogle. To dataset όταν κατεβαίνει τοπικά στον υπολογιστή ονομάζεται global_placement.csv και αποθηκεύτηκε στον ίδιο φάκελο με το .R αρχείο ώστε να φορτωθεί σε αυτό.

Αρχική Διερεύνηση του Dataset

Το συγκεκριμένο σύνολο δεδομένων αποτελεί μια παγκόσμια συλλογή ακαδημαϊκών και επαγγελματικών αρχείων φοιτητών για το έτος 2025. Σχεδιάστηκε για να προσομοιώνει ρεαλιστικά την μετάβαση από το Πανεπιστήμιο στην Αγορά Εργασίας .

library(readr)
library(ggplot2)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

students_data <- read_csv("global_placement.csv")

## Rows: 10000 Columns: 13

## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (6): college_tier, country, university_ranking_band, specialization, ind...
## dbl (7): cgpa, backlogs, internship_count, aptitude_score, communication_sco...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

# Α.Εμφάνιση Ολόκληρου Πίνακα
View(students_data)

# Β.Ονόματα των στηλών και τους τύπους δεδομένων (numeric, character, κλπ)
glimpse(students_data)

## Rows: 10,000
## Columns: 13
## $ cgpa                     <dbl> 7.397371, 6.889389, 7.518151, 8.218424, 6.812…
## $ backlogs                 <dbl> 1, 0, 0, 0, 1, 0, 1, 2, 0, 3, 1, 2, 3, 3, 2, …
## $ college_tier             <chr> "Tier 2", "Tier 3", "Tier 1", "Tier 2", "Tier…
## $ country                  <chr> "Canada", "UK", "UK", "UK", "USA", "Germany",…
## $ university_ranking_band  <chr> "100-300", "300+", "100-300", "100-300", "100…
## $ internship_count         <dbl> 2, 1, 2, 3, 4, 1, 2, 1, 3, 2, 2, 2, 3, 3, 3, …
## $ aptitude_score           <dbl> 53.57415, 60.68775, 64.56875, 73.46150, 86.51…
## $ communication_score      <dbl> 64.17706, 88.34605, 69.49317, 78.20485, 44.68…
## $ specialization           <chr> "Data Science", "Data Science", "Cybersecurit…
## $ industry                 <chr> "Consulting", "Consulting", "Healthcare", "Te…
## $ internship_quality_score <dbl> 5.481450, 4.625099, 5.227939, 5.150674, 3.888…
## $ placement_status         <chr> "Placed", "Placed", "Placed", "Placed", "Plac…
## $ salary                   <dbl> 104124.37, 80586.84, 114444.32, 120000.00, 12…

# Γ. Στατιστική περίληψη (Μέσοι όροι, ελάχιστα, μέγιστα)
summary(students_data)

##       cgpa           backlogs     college_tier         country         
##  Min.   : 4.000   Min.   :0.000   Length:10000       Length:10000      
##  1st Qu.: 6.462   1st Qu.:0.000   Class :character   Class :character  
##  Median : 6.998   Median :1.000   Mode  :character   Mode  :character  
##  Mean   : 6.998   Mean   :1.248                                        
##  3rd Qu.: 7.537   3rd Qu.:2.000                                        
##  Max.   :10.000   Max.   :6.000                                        
##  university_ranking_band internship_count aptitude_score   communication_score
##  Length:10000            Min.   :0.000    Min.   : 30.00   Min.   : 30.00     
##  Class :character        1st Qu.:1.000    1st Qu.: 59.88   1st Qu.: 55.11     
##  Mode  :character        Median :1.000    Median : 70.10   Median : 65.01     
##                          Mean   :1.499    Mean   : 69.88   Mean   : 65.16     
##                          3rd Qu.:2.000    3rd Qu.: 80.21   3rd Qu.: 75.28     
##                          Max.   :5.000    Max.   :100.00   Max.   :100.00     
##  specialization       industry         internship_quality_score
##  Length:10000       Length:10000       Min.   : 1.000          
##  Class :character   Class :character   1st Qu.: 4.013          
##  Mode  :character   Mode  :character   Median : 5.017          
##                                        Mean   : 5.021          
##                                        3rd Qu.: 6.031          
##                                        Max.   :10.000          
##  placement_status       salary      
##  Length:10000       Min.   :     0  
##  Class :character   1st Qu.:     0  
##  Mode  :character   Median : 63431  
##                     Mean   : 55442  
##                     3rd Qu.:100601  
##                     Max.   :120000

# Δ. Υπολογισμός κενών τιμών και ποσοστών
missing_table <- data.frame(
  Missing_Values = colSums(is.na(students_data)),
  Percentage = (colSums(is.na(students_data)) / nrow(students_data)) * 100
)

print("--- Έλεγχος Κενών Τιμών ανά Στήλη ---")

## [1] "--- Έλεγχος Κενών Τιμών ανά Στήλη ---"

print(missing_table)

##                          Missing_Values Percentage
## cgpa                                  0          0
## backlogs                              0          0
## college_tier                          0          0
## country                               0          0
## university_ranking_band               0          0
## internship_count                      0          0
## aptitude_score                        0          0
## communication_score                   0          0
## specialization                        0          0
## industry                              0          0
## internship_quality_score              0          0
## placement_status                      0          0
## salary                                0          0

Πιο συγκεκριμένα το dataset αποτελείται από 10000 παρατηρήσεις (σειρές) και 13 χαρακτηριστικά (στήλες).

Οι 13 στήλες χωρίζονται σε 4 κατηγορίες:

Ακαδημαϊκό υπόβαθρο
- cgpa (double): Είναι ο βαθμός πτυχίου με εύρος 4.000 - 10.000 και μέσο όρο 6.998
- backlogs (double): Είναι ο αριθμός χρωστούμενων μαθημάτων και λειτουργεί ως δείκτης ακαδημαϊκής συνέπειας. Κυμαίνεται από 0.000 - 6.000 και κατά μέσο όρο οι φοιτητές χρωστάνε 1.248 μαθήματα
- college_tier & university_ranking_band(character): Είναι δείκτες κύρους του εκπαιδευτικού ιδρύματος
- country (character): Δείχνει από ποια χώρα αποφοίτησε ο κάθε φοιτητής. Οι χώρες του συγκεκριμένου dataset είναι USA, UK, Canada, Germany, India.
Πρακτική εμπειρία
- intership_count (double): Αναπαριστά την ποσότητα των πρακτικών ασκήσεων που έκανε ο κάθε φοιτητής. Φαίνεται ότι οι φοιτητές κάνανε από καμία μέχρι και 5 πρακτικές ασκήσεις και ο μέσος όρος είναι σχεδόν 1.5 (1.499) δηλαδή ο τυπικός φοιτητής στο δείγμα ολοκληρώνει από 1 έως 2 πρακτικές κατά την διάρκεια των σπουδών του.
- intership_quality_score (double): Αξιολογεί το επίπεδο της εργασιακής εμπειρίας των φοιτητών στην πρακτική τους άσκηση, δηλαδή το πόσο δυνατές ήταν αυτές οι πρακτικές. Το σκορ κυμαίνεται από 1/10 έως και 10/10 άρα από πολύ χαμηλή ποιότητα έως πολύ υψηλή. Ο μέσος όρος είναι 5.021 το οποίο δείχνει ότι το δείγμα παρουσιάζει κανονική κατανομή ως προς την ποιότητα της προϋπηρεσίας. Οι περισσότεροι φοιτητές έχουν μια “μέτρια προς καλή” εμπειρία, ενώ υπάρχουν ίσοι αριθμοί φοιτητών με πολύ χαμηλή και πολύ υψηλή ποιότητα εμπειρίας.
Δεξιότητες
- aptitude_score (double): Είναι το σκορ από τεστ δεξιοτήτων και μετράει την ετοιμότητα των φοιτητών σε επίπεδο ποσοτικής και λογικής σκέψης. Τα αποτελέσματα κυμαίνονται από 30 μέχρι 100. Οι φοιτητές κατά μέσο όσο γράψανε 69.88, δηλαδή αρκετά πάνω από την βάση, γεγονός που υποδηλώνει ένα ικανοποιητικό επίπεδο ικανότητας επίλυσης προβλημάτων.
- communication_score (double): Αντιπροσωπεύει την αξιολόγηση των επικοινωνιακών δεξιοτήτων των φοιτητών (soft skills). Το εύρος κυμαίνεται και εδώ από 30-100 και με μέσο όρο 65.16. Ο μέσος όρος των 65.16 μονάδων δείχνει ότι οι φοιτητές κατέχουν ένα καλό επίπεδο δεξιοτήτων παρουσίασης και συνεργασίας. Παρατηρείται ότι ο μέσος όρος της επικοινωνίας είναι ελαφρώς χαμηλότερος από αυτόν του aptitude (69.88), στοιχείο που υποδηλώνει ότι ενώ οι φοιτητές έχουν ισχυρό τεχνικό/λογικό υπόβαθρο, υπάρχει περιθώριο περαιτέρω ανάπτυξης των επικοινωνιακών τους ικανοτήτων για να ανταποκριθούν καλύτερα σε διευθυντικούς ρόλους ή ρόλους που απαιτούν διαρκή αλληλεπίδραση.
Αγορά εργασίας
- industry (character): Είναι οι κλάδοι που απορροφώνται οι φοιτητές, οι οποίοι είναι Tech, Finance, Healthcare, Consulting, Manufacturing, Other.
- specialization (character): Είναι το γνωστικό αντικείμενο πάνω στο οποίο δραστηριοποιούνται επαγγελματικά οι φοιτητές. Τα αντικείμενα αυτά είναι AI/ML, Data Science, Cybersecurity, Cloud, Core CS.
- placement_status (character): Δείχνει με την τιμή “Placed” και “Not placed” εάν οι φοιτητές έχουν ενσωματωθεί στην αγορά εργασίας ή όχι ακόμα.
- salary (double): Είναι οι οικονομικές ανταμοιβές των φοιτητών από την δουλειά τους οι οποίες κυμαίνονται από 63000 έως και 120000 USD. Αρκετοί φοιτητές (περίπου 3800) δεν έχουν δηλώσει μισθό (salary=0) κυρίως επειδή δεν έχουν μπει ακόμα στην αγορά εργασίας.

Το dataset είναι εξαιρετικής ποιότητας (Clean dataset) καθώς ο έλεγχος για κενές τιμές (missing values) έδειξε 0% σε όλες τις στήλες. Αυτό επιτρέπει την διεξαγωγή στατιστικών αναλύσεων χωρίς την ανάγκη για προχωρημένες τεχνικές επεξεργασίας.

Η επιλογή του συγκεκριμένου συνόλου δεδομένων βασίστηκε στην πολυδιάστατη φύση του, η οποία προσφέρει ένα ιδανικό πεδίο εφαρμογής Περιγραφικής (Descriptive) και Διαγνωστικής (Diagnostic) Αναλυτικής:

Μεγάλος Όγκος Δεδομένων (Big Data Ready): Με 100.000 εγγραφές, το δείγμα είναι στατιστικά ισχυρό, επιτρέποντας την εξαγωγή ασφαλών συμπερασμάτων χωρίς το φόβο τυχαίων αποκλίσεων.
Πολυμεταβλητότητα: Το dataset συνδυάζει ποσοτικά (CGPA, Scores, Salary) και ποιοτικά δεδομένα (Specialization, Tier, Country), επιτρέποντας τη διερεύνηση σύνθετων συσχετίσεων που επηρεάζουν την αγορά εργασίας.
Επικαιρότητα και Ανταγωνιστικότητα: Καλύπτει τομείς αιχμής (AI/ML, Cloud, Cybersecurity), οι οποίοι βρίσκονται στο επίκεντρο της παγκόσμιας ψηφιακής οικονομίας, καθιστώντας την ανάλυση κρίσιμη για τη λήψη στρατηγικών αποφάσεων.

Μέσω της επεξεργασίας των δεδομένων, η αναφορά στοχεύει να απαντήσει στα εξής κρίσιμα ερωτήματα που απασχολούν οργανισμούς, πανεπιστήμια και υποψηφίους:

Προσδιορισμός του “Ιδανικού Υποψηφίου”: Ποιος συνδυασμός δεξιοτήτων (Aptitude vs. Communication) οδηγεί σε υψηλότερα ποσοστά πρόσληψης (Placement Rate); Αυτό βοηθά τα τμήματα HR να βελτιώσουν τα κριτήρια επιλογής προσωπικού.
Απόδοση Επένδυσης στην Εκπαίδευση : Εξασφαλίζει ένα πτυχίο από Tier 1 σχολή υψηλότερο αρχικό μισθό σε σχέση με ένα Tier 3, ή μήπως η εξειδίκευση (Specialization) παίζει σημαντικότερο ρόλο; Καθοδηγεί τους φοιτητές στην επιλογή σπουδών και τα πανεπιστήμια στην αναθεώρηση των προγραμμάτων τους.
Γεωγραφική Στρατηγική Προσλήψεων: Σε ποιες χώρες υπάρχει η μεγαλύτερη σχέση κόστους-αποτελεσματικότητας (Cost-Efficiency) για την πρόσληψη εξειδικευμένων ταλέντων στο Data Science ή στο Cloud; Βοηθά πολυεθνικές εταιρείες να αποφασίσουν σε ποιες χώρες θα επεκτείνουν τα τεχνολογικά τους κέντρα (hubs).
Μισθολογικό Benchmarking: Ποιες είναι οι μέσες μισθολογικές προσδοκίες ανά ειδικότητα παγκοσμίως; Αυτό επιτρέπει στις επιχειρήσεις να διαμορφώσουν ανταγωνιστικά πακέτα απολαβών για να προσελκύσουν κορυφαία ταλέντα.

Συντελεστές Συσχέτισης (Correlation Matrix)

# Επιλογή μόνο των αριθμητικών μεταβλητών
numeric_vars <- students_data %>% 
  select(cgpa, communication_score, aptitude_score, salary)

# Υπολογισμός μήτρας συσχέτισης
cor_matrix <- cor(numeric_vars, use = "complete.obs")
print(cor_matrix)

##                             cgpa communication_score aptitude_score     salary
## cgpa                 1.000000000         0.001293264   -0.011886829 0.33434627
## communication_score  0.001293264         1.000000000   -0.008060449 0.08608220
## aptitude_score      -0.011886829        -0.008060449    1.000000000 0.07547046
## salary               0.334346271         0.086082197    0.075470459 1.00000000

Η μετάβαση από την περιγραφική στη διαγνωστική αναλυτική πραγματοποιήθηκε μέσω του υπολογισμού των συντελεστών συσχέτισης του Pearson ($r$). Η διαδικασία αυτή μας επιτρέπει να κατανοήσουμε τη δύναμη και την κατεύθυνση της σχέσης μεταξύ των αριθμητικών δεδομένων (CGPA, Communication, Aptitude, Salary). Από τη στατιστική ανάλυση προκύπτει ότι οι μεταβλητές του δείγματος αλληλεπιδρούν με τρόπο που αναδεικνύει την πολυπλοκότητα της σύγχρονης αγοράς εργασίας, καταρρίπτοντας ορισμένες παραδοσιακές αντιλήψεις.

Η σημαντικότερη διαπίστωση αφορά τη σχέση μεταξύ της ακαδημαϊκής επίδοσης (CGPA) και των οικονομικών απολαβών (Salary), όπου παρατηρείται μια ασθενής προς μέτρια θετική συσχέτιση ($r = 0,334$). Το εύρημα αυτό υποδηλώνει ότι ο βαθμός πτυχίου παραμένει ο ισχυρότερος αριθμητικός προγνωστικός παράγοντας για το ύψος του μισθού σε σχέση με τις υπόλοιπες μεταβλητές. Από επιχειρηματική σκοπιά, το CGPA λειτουργεί ως ένα αξιόπιστο «σήμα ποιότητας» (quality signal), το οποίο οι εργοδότες εξακολουθούν να ανταμείβουν οικονομικά, θεωρώντας το ως ένδειξη συνέπειας και ακαδημαϊκής πειθαρχίας.

Αντιθέτως, τα αποτελέσματα των τεστ δεξιοτήτων (Communication και Aptitude Scores) εμφανίζουν εξαιρετικά χαμηλή έως μηδενική συσχέτιση με το ύψος του μισθού ($r < 0,09$). Αυτό το «παράδοξο» οδηγεί σε ένα κρίσιμο συμπέρασμα για τη λήψη αποφάσεων: ενώ οι επικοινωνιακές και αναλυτικές ικανότητες είναι απαραίτητες για την επιτυχή πρόσληψη (Placement), δεν αποτελούν από μόνες τους μοχλό διαπραγμάτευσης για υψηλότερη αμοιβή. Φαίνεται ότι οι δεξιότητες αυτές λειτουργούν ως «κατώφλια εισόδου» (entry thresholds), τα οποία ο υποψήφιος πρέπει απλώς να υπερβεί για να εξασφαλίσει τη θέση, ενώ ο μισθός καθορίζεται στη συνέχεια από το ακαδημαϊκό του υπόβαθρο ή την εξειδίκευση.

Τέλος, η σχεδόν μηδενική συσχέτιση που παρατηρείται μεταξύ των ίδιων των σκορ (π.χ. μεταξύ CGPA και Communication) αποδεικνύει ότι οι μεταβλητές αυτές είναι στατιστικά ανεξάρτητες. Αυτό σημαίνει ότι ένας φοιτητής με υψηλή βαθμολογία δεν διαθέτει απαραίτητα αναπτυγμένες επικοινωνιακές δεξιότητες, ούτε το αντίστροφο. Για τις επιχειρήσεις, η πληροφορία αυτή είναι ζωτικής σημασίας, καθώς επιβάλλει μια πολυδιάστατη στρατηγική αξιολόγησης (holistic hiring). Η ανάλυση επιβεβαιώνει ότι κανένας δείκτης από μόνος του δεν μπορεί να προβλέψει τη συνολική αξία ενός υποψηφίου, καθιστώντας απαραίτητη τη χρήση σύνθετων εργαλείων Business Analytics για τη σωστή στελέχωση των οργανισμών.

Scatterplot

placed_students <- students_data%>%  #Φοιτητές με μισθό
  filter(salary>0)

print(ggplot(data = placed_students, aes(x = cgpa, y = salary, color = college_tier))+
        geom_point(size=2, alpha=0.4)+
        geom_smooth(method = "lm", se = FALSE, color = "red", linetype = "dashed")+
        scale_color_brewer(palette = "Set1")+
        labs(
          title = "Συσχέτιση Βαθμολογίας και Ετήσιου Μισθού",
          subtitle = "Ανάλυση για φοιτητές ανά Tier Πανεπιστημίου",
          x = "Cumulative GPA",
          y = "Salary (USD)",
          color = "College Tier"
        )+
        theme_minimal())

## `geom_smooth()` using formula = 'y ~ x'

Το παραπάνω scatterplot οπτικοποιεί την σχέση μεταξύ της ακαδημαϊκής επίδοσης του φοιτητή και του μισθού που παίρνει στην δουλειά του, λαμβάνοντας υπόψιν το κύρος του ιδρύματος που φοίτησε.

Παρατηρώντας το διάγραμμα , η κόκκινη διακεκομμένη γραμμή (regression line) παρουσιάζει ανοδική τάση, γεγονός που αποδεικνύει ότι όσο αυξάνεται ο βαθμός πτυχίου του φοιτητή (CGPA) τόσο αυξάνονται και οι πιθανότητες για υψηλότερο ετήσιο μισθό.

Η χρήση των χρωμάτων αποκαλύπτει μια σημαντική δυναμική της αγοράς:

Στο διάγραμμα παρατηρείται μια πυκνή συγκέντρωση των κόκκινων κουκκίδων (Tier1) στην κορυφή του διαγράμματος, άνω των 100000 USD. Αυτό υποδηλώνει ότι οι απόφοιτοι κορυφαίων πανεπιστημίων εξασφαλίζουν υψηλούς μισθούς ακόμα και με μεσαίους βαθμούς. Η παρουσία των κόκκινων σημείων στο κάτω μέρος του διαγράμματος (κάτω από 75000 USD) είναι εξαιρετικά αραιή έως και ανύπαρκτη σε ορισμένα σημεία. Αυτό σημαίνει ότι το πτυχίο από ένα Tier 1 πανεπιστήμιο λειτουργεί ως “ασπίδα” ενάντια στους χαμηλούς μισθούς. Ακόμα και στην περίπτωση που ένας φοιτητής έχει χαμηλότερο CGPA , η αγορά φαίνεται να τον “κοστολογεί” υψηλότερα λόγω του κύρους του ιδρύματος, με αποτέλεσμα να μην πέφτει σχεδόν ποτέ κάτω από το όριο των $50.000-$60.000.
Τα πράσινα σημεία (Tier3) καλύπτουν σχεδόν όλο το εύρος του άξονα Y, κάτι που υποδηλώνει ότι η προέλευση ενός φοιτητή από ένα ίδρυμα Tier 3 δεν εγγυάται τίποτα προκαθορισμένο. Ωστόσο είναι τα μόνα που αγγίζουν τη βάση των 25000 - 50000 USD, δηλαδή είναι οι μόνοι που κινδυνεύουν να ξεκινήσουν από αρκετά μικρές απολαβές ειδικά εάν το CGPA τους είναι χαμηλότερο από 7. Το πιο αισιόδοξο εύρημα είναι ότι ορισμένα πράσινα σημεία αγγίζουν την κορυφή ακόμα και με μεσαίο βαθμό πτυχίου, κάτι το οποίο αποδεικνύει ότι η αγορά εργασίας παραμένει ανοιχτή και ένας φοιτητής τέτοιου ιδρύματος που έχει επενδύσει σε άλλα προσόντα μπορεί να καταφέρει να πάρει έναν πολύ υψηλό βαθμό.
Τα μπλε σημεία (Tier2) παρουσιάζουν μεγαλύτερη πυκνότητα στην μέση του διαγράμματος μεταξύ 50000 και 100000 USD. Αυτό σημαίνει ότι σπάνια θα βρεθούν να παίρνουν πολύ χαμηλό βαθμό αλλά δεν έχουν και “αυτόματη πρόσβαση” στις κορυφαίες αμοιβές που έχουν οι απόφοιτοι των κορυφαίων ιδρυμάτων. Η αγορά αναγνωρίζει την αξία του ιδρύματος και προσφέρει στους αποφοίτους έναν αξιοπρεπή μισθό (όχι πολύ χαμηλό όπως σε Tier 3), αποτρέποντας την πτώση σε πολύ χαμηλά μισθολογικά επίπεδα ακόμα και με μέτριες βαθμολογίες. Παρατηρούμε επίσης ότι τα μπλε σημεία ακολουθούν πιο πιστά την κόκκινη διακεκομμένη γραμμή, γεγονός που σημαίνει ότι η άνοδος του CGPA μεταφράζεται σχεδόν αναλογικά και σε άνοδο του μισθού.

Παρά την ανοδική πορεία της κόκκινης γραμμής, στο διάγραμμα παρατηρείται και μεγάλη διασπορά των σημείων. Αυτή η διασπορά αποδεικνύει ότι ο βαθμός δεν είναι ο μοναδικός παράγοντας καθορισμού του μισθού.

Boxplot

placed_students <- students_data%>%  #Φοιτητές με μισθό
  filter(salary>0)
  
 print(ggplot(placed_students, aes(x = specialization, y = salary, fill = specialization)) +
  geom_boxplot(outlier.colour = "red", outlier.shape = 8, outlier.size = 2, alpha = 0.7) +
  scale_fill_brewer(palette = "Set3") +
  labs(
    title = "Κατανομή Μισθών ανά Ειδικότητα",
    subtitle = "Σύγκριση μισθού για τους τοποθετημένους αποφοίτους",
    x = "Ειδικότητα (Specialization)",
    y = "Ετήσιος Μισθός (USD)"
  ) +
  theme_minimal())

Το παραπάνω boxplot συγκρίνει τον μισθό που παίρνουν οι απόφοιτοι ανάλογα με την ειδικότητά τους.

Παρατηρούμε ότι οι ειδικότητες AI/ML και Data Science έχουν τις υψηλότερες διαμέσους, η οποία τοποθετείται πάνω από τα 100000 USD. Αυτό σημαίνει ότι οι απόφοιτοι αυτών των κλάδων ξεκινάνε με ένα “πλεονέκτημα” στην αγορά καθώς ο μέσος φοιτητής τους αμείβεται καλύτερα από τον μέσο φοιτητή άλλης ειδικότητας.

Τα κουτιά των δυο παραπάνω ειδικοτήτων έχουν μεγαλύτερο ύψους από τα υπόλοιπα, που σημαίνει ότι υπάρχει μεγαλύτερη διακύμανση. Ενώ πολλοί βάζουν εξαιρετικά λεφτά, ένα σημαντικό ποσοστό κινείται σε ευρύ φάσμα 80000 - 115000. Αυτό υποδηλώνει ότι αυτοί οι κλάδοι είναι κορεσμένοι και ο μισθός εξαρτάται και από άλλους παράγοντες.

Οι ειδικότητες Cloud , Core CS και Cybersecurity παρουσιάζουν παρόμοια εικόνα, με μέση τιμή λίγο κάτω από 90000. Οι γραμμές που εκτείνονται κάτω από τα κουτιά των ειδικοτήτων αυτών φανερώνουν ότι στους κλάδους αυτούς υπάρχει μεγαλύτερος κίνδυνος για χαμηλό αρχικό μισθό. Ωστόσο υπάρχει και η δυνατότητα να πάρουν υψηλότερους βαθμούς κοντά στο ταβάνι κάτι το οποίο γίνεται ορατό από τις γραμμές πάνω από τα κουτιά.

Histogram

print(ggplot(data = students_data, aes(x=communication_score))+
        geom_histogram(binwidth = 2, fill = "#69b3a2", color="white", alpha=0.8)+
        geom_vline(aes(xintercept = mean(communication_score)), color = "red", linetype = "dashed", linewidth = 1)+
        labs(
          title = "Κατανομή Επικοινωνιακών Δεξιοτήτων (Communication Score)",
          subtitle = "Συχνότητα εμφάνισης σκορ στο σύνολο των 10.000 φοιτητών",
          x = "Communication Score (30 - 100)",
          y = "Αριθμός Φοιτητών"
        )+
        theme_minimal()+
        annotate("text", x = 75, y = 450, label = "Μέσος Όρος: 65.16", color = "red", fontface = "bold"))

Το παραπάνω ιστόγραμμα εξετάζει την ποιότητα των φοιτητών σε σχέση με τα soft skills τους . Ενώ οι βαθμοί δείχνουν τι ξέρουν, αυτό το γράφημα δείχνει πως θα το επικοινωνήσουν στην αγορά εργασίας.

Το γράφημα παρουσιάζει κανονική κατανομή σε σχήμα καμπάνας (Bell Curve). Αυτό είναι σημαντικό για την αξιοπιστία της ανάλυσης καθώς υποδηλώνει ότι το δείγμα είναι αντιπροσωπευτικό ενός πραγματικού πανεπιστημιακού περιβάλλοντος, όπου οι ακραίες τιμές είναι σπάνιες και η πλειοψηφία των παρατηρήσεων συγκεντρώνεται γύρω από ένα κεντρικό σημείο αναφοράς.

Η κόκκινη διακεκομμένη γραμμή αντιπροσωπεύει τον μέσο όρο ο οποίος εντοπίζεται στο 65.16 και αποτελεί το κέντρο βάρους των soft skills στο dataset. Στο διάγραμμα παρατηρούμε ότι ο μέσος όρος βρίσκεται σε πολύ κοντινή απόσταση από την υψηλότερη συχνότητα φοιτητών (το peak εντοπίζεται στην περιοχή 62-64) γεγονός που υποδηλώνει μια σχεδόν συμμετρική κατανομή. Αυτή η ανεπαίσθητη μεταβολή του μέσου όρου προς τα δεξιά φανερώνει ότι, ενώ η μάζα των φοιτητών συγκεντρώνεται σε ένα μεσαίο επίπεδο βαθμολογιών, η παρουσία μιας ικανής ομάδας φοιτητών με πολύ υψηλές επιδόσεις τραβάει τον μέσο όρο ελαφρώς προς τα πάνω. Συνολικά οι φοιτητές παρουσιάζουν ένα αρκετά ικανοποιητικό βασικό επίπεδο επικοινωνιακής ικανότητας, το οποίο όμως αφήνει σημαντικό περιθώριο βελτίωσης μέχρι το άριστα.

Ιδιαίτερο ενδιαφέρον παρουσιάζουν οι outliers που βρίσκονται στα άκρα του γραφήματος, καθώς εκεί εντοπίζονται οι ομάδες που θα διαφοροποιηθούν στην αγορά εργασίας. Στην αριστερή πλευρά που βρίσκονται τα σκορ 30 - 40, παρατηρείται μια μικρή ομάδα φοιτητών με περιορισμένα soft skills. Οι φοιτητές αυτοί, ανεξάρτητα από τον βαθμό πτυχίου τους (CGPA), ενδέχεται να αντιμετωπίσουν δυσκολίες στο στάδιο της συνέντευξης ή σε κάποια ομαδική εργασία. Αντίθετα στην δεξιά πλευρά με σκορ 85-100, εντοπίζεται αυτοί που τα προόδευσαν στο τεστ επικοινωνιακών δεξιοτήτων. Αυτοί έχουν το ανταγωνιστικό πλεονέκτημα των ανώτερων soft skills, το οποίο παίζει πολύ μεγάλο ρόλο κυρίως για πρόσληψη σε υψηλόβαθμους και ηγετικούς ρόλους καθώς και σε κλάδους έντονης αλληλεπίδρασης όπως το Consulting και το Marketing.

Bar chart

#Υπολογισμός ποσοστού επιτυχίας ανά ειδικότητα
placement_rate <- students_data %>%
  group_by(specialization) %>%
  summarise(
    Total = n(),
    Placed = sum(placement_status == "Placed"),
    Rate = (Placed / Total) * 100
  )

print(ggplot(placement_rate, aes(x = reorder(specialization, -Rate), y = Rate, fill = specialization)) +
  geom_bar(stat = "identity", alpha = 0.8) +
  geom_text(aes(label = paste0(round(Rate, 1), "%")),vjust = -0.5, fontface = "bold") +
  scale_fill_brewer(palette = "Pastel2") +
  labs(
    title = "Ποσοστό Απορρόφησης ανά Ειδικότητα",
    subtitle = "Ποιοι κλάδοι έχουν τις περισσότερες πιθανότητες πρόσληψης;",
    x = "Ειδικότητα",
    y = "Ποσοστό Επιτυχίας (%)"
  ) +
  theme_minimal() )

Το παραπάνω γράφημα μετατοπίζει την ανάλυση από το ύψος των απολαβών στην ασφάλεια της απασχόλησης, δηλαδή “πόσο εύκολα” ένας απόφοιτος εισέρχεται στην αγορά εργασίας ανάλογα με την εξειδίκευσή του.

Παρατηρούμε ότι οι κλάδοι του Cloud και του Cybersecurity είναι αυτοί που καταλαμβάνουν τις πρώτες θέσεις στην απορρόφηση με ποσοστά 63,7% και 61,9% αντίστοιχα. Παρά το γεγονός ότι το Boxplot έδειξε ότι AI/ML και το Data Science προσφέρουν υψηλότερους βαθμούς, το Cloud Computing αποδεικνύεται η πιο “ασφαλής” επιλογή. Αυτό υποδηλώνει ότι η αγορά έχει τεράστια ανάγκη από υποδομές και ασφάλεια, προσφέροντας περισσότερες θέσεις εργασίας σε σχέση με άλλους κλάδους.

Οι κλάδοι αιχμής διατηρούν σταθερά ποσοστά πάνω από 60%. Ο συνδυασμός των ποσοστών αυτών με τα προηγούμενα ευρήματα του Boxplot επιβεβαιώνει ότι το AI/ML και Data Science παρουσιάζουν τον βέλτιστο συνδυασμό επαγγελματικής αποκατάστασης και οικονομικής απόδοσης, καθιστώντας τους τις πιο ελκυστικές εργασιακές επιλογές στο σύγχρονο επαγγελματικό περιβάλλον.

Στην τελευταία θέση με μικρή διαφορά από τους άλλους επαγγελματικούς κλάδους βρίσκεται το Core CS με ποσοστό 59,7%. Αυτό υποδηλώνει ότι οι “γενικές” γνώσεις πληροφορικής, αν και απαραίτητες, αντιμετωπίζουν μεγαλύτερο ανταγωνισμό και ίσως οι απόφοιτοι χρειάζονται ένα ισχυρότερο CGPA ή skills για να σπάσουν το φράγμα του 60% και να βρουν πιο εύκολα δουλειά σε μια αγορά που πριμοδοτεί την εξειδίκευση.

Τέλος, η μικρή απόκλιση μεταξύ των ειδικοτήτων δείχνει μια υγιή και ισορροπημένη αγορά, χωρίς κάποιον κλάδο που να καταρρέει ή να είναι υπερβολικά κορεσμένος. Η διαφορά μεταξύ της πρώτης και της τελευταίας ειδικότητας είναι μόλις 4 ποσοστιαίες μονάδες, γεγονός που καθιστά την επιλογή ειδικότητας μια απόφαση που βασίζεται περισσότερο στο προσωπικό ενδιαφέρον και τον μισθό, παρά στον φόβο της ανεργίας.