1. Εισαγωγή & Περιγραφή Dataset Πηγή Δεδομένων Το σύνολο δεδομένων περιλαμβάνει την κατάταξη των κορυφαίων πανεπιστημίων παγκοσμίως από τον οργανισμό QS (2024).

Επιχειρηματικά Ερωτήματα Πώς επηρεάζει η ακαδημαϊκή φήμη (academic_reputation) τη συνολική βαθμολογία;

Ποια είναι η κατανομή των πηγών χρηματοδότησης (Fundos) σε σχέση με την κατάταξη;

  1. Περιγραφή Μεταβλητών Με βάση το αρχείο uniDataset.csv, οι κύριες μεταβλητές είναι:

university: Το όνομα του ιδρύματος.

overall_score: Η συνολική βαθμολογία (0-100).

academic_reputation: Βαθμολογία από την ακαδημαϊκή κοινότητα.

employer_reputation: Φήμη στην αγορά εργασίας.

# ΦΟΡΤΩΣΗ ΔΕΔΟΜΕΝΩΝ
df <- read.csv("uniDataset.csv")

# Μετατροπή σε αριθμητικά 
df$overall_score <- as.numeric(as.character(df$overall_score))
  1. Περιγραφικά Στατιστικών Υπολογίζουμε τα μέτρα κεντρικής τάσης για τη συνολική βαθμολογία.
summary_stats <- df %>%
  summarise(
    Mean = mean(overall_score, na.rm = TRUE),
    Median = median(overall_score, na.rm = TRUE),
    SD = sd(overall_score, na.rm = TRUE),
    Min = min(overall_score, na.rm = TRUE),
    Max = max(overall_score, na.rm = TRUE)
  )
knitr::kable(summary_stats)
Mean Median SD Min Max
75.01619 73.4 11.4545 59.4 100
  1. Διερεύνηση Συσχετίσεων Εξετάζουμε τη σχέση μεταξύ των βαθμολογιών.
# Επιλογή αριθμητικών στηλών για τη μήτρα συσχέτισης
num_cols <- df %>% select(overall_score, academic_reputation, employer_reputation, faculty_student_ratio)
cor_matrix <- cor(num_cols, use = "complete.obs")
corrplot(cor_matrix, method = "number")

  1. Οπτικοποίηση Δεδομένων Α. Scatterplot Σχέση Ακαδημαϊκής Φήμης και Συνολικής Βαθμολογίας.
ggplot(df, aes(x = academic_reputation, y = overall_score)) +
  geom_point(color = "darkblue") +
  geom_smooth(method = "lm", color = "red") +
  labs(title = "Academic Reputation vs Overall Score", x = "Academic Reputation", y = "Overall Score")

Β. Boxplot Κατανομή του Overall Score.

ggplot(df, aes(y = overall_score)) +
  geom_boxplot(fill = "lightblue") +
  labs(title = "Boxplot of Overall Score", y = "Score")

Γ. Histogram Η συχνότητα των βαθμολογιών στο Top 100.

ggplot(df, aes(x = overall_score)) +
  geom_histogram(bins = 15, fill = "forestgreen", color = "white") +
  labs(title = "Distribution of Overall Scores", x = "Score", y = "Frequency")

Δ. Bar Chart Τα 10 πρώτα πανεπιστήμια και το σκορ τους.

df %>% head(10) %>%
  ggplot(aes(x = reorder(university, overall_score), y = overall_score)) +
  geom_bar(stat = "identity", fill = "coral") +
  coord_flip() +
  labs(title = "Top 10 Universities by Score", x = "University", y = "Overall Score")