Xếp hạng đại học (University ranking) là việc liệt kê danh sách các trường theo một thứ bậc nhất định dựa trên một tổ hợp các chỉ số. Việc xếp hạng có thể dựa trên chất lượng được hiểu một cách chủ quan qua các con số thống kê, kết quả điều tra của các nhà giáo dục, các chuyên gia, giảng viên, sinh viên và các đối tượng khác (Marginson, 2007). Những bảng xếp hạng này được coi là đã “củng cố khái niệm về một thị trường đại học thế giới” (Marginson & Van der Wende, 2007), trong đó các trường đại học được đánh giá theo một quy mô toàn cầu, do đó tạo ra sự cạnh tranh giữa các trường đại học như một mô hình mới ở hầu hết các quốc gia (Altbach, 2006).
Các mô hình xếp hạng thay đổi đáng kể theo mục đích và phạm vi, theo các định nghĩa và theo các mẫu phương pháp luận của chúng (Usher & Savino, 2006). Ví dụ như Bảng xếp hạng học thuật các trường đại học trên thế giới (ARWU) của Đại học Giao thông Thượng Hải (Shanghai Jiaotong University) xem xét các tiêu chí sau:
Mục chủ yếu của việc xếp hạng là để nâng cao hơn nữa chất lượng và tính minh bạch thông tin của các tổ chức giáo dục đại học trong bối cảnh cạnh tranh và toàn cầu hoá, quốc tế hoá diễn ra ngày càng mạnh mẽ trong giáo dục đại học. Giữa xu thế ấy, các cơ quan quản lý nhà nước thường chỉ đóng vai trò kiểm định và phân loại các cơ sở giáo dục đại học. Sân chơi về xếp hạng đại học đa phần đều do các tổ chức độc lập tiến hành.
Tuy vậy, ngoài chất lượng, nhiều nhà quản lí giáo dục và cả nhiều trường đại học ở Việt Nam lại đưa ra những chất vấn và nghi ngờ về mục đích của xếp hạng đại học ở Việt Nam có thể không hoặc khó đạt được vì rất nhiều lí do. Một trong những lí do đó là việc giao công việc này cho một đại học cụ thể nào đó có thể vi phạm tính độc lập của tổ chức thực hiện xếp hạng. Chẳng hạn, lo ngại đó có thể là phương pháp thực hiện xếp hạng được sử dụng (như chọn các tiêu chí nào để xếp hạng và với các trọng số là bao nhiêu) có thể “thiên vị” theo hướng có lợi cho một nhóm trường nào đó và không công bằng với các trường còn lại. Vấn đề này có thể tham khảo chi tiết hơn ở đây.
Xếp hạng đại học ở Việt Nam thực sự là một vấn đề quan trọng vì nó liên quan đến rất nhiều vấn đề sau.
Thứ hạng của một đại học gắn liền với thương hiệu và do đó có thể ảnh hưởng nhiều đến danh tiếng, khả năng thu hút fund cho trường và các dự án nghiên cứu. Danh tiếng của trường cũng còn ảnh hưởng đến khả năng thu hút sinh viên. Nhiều trường ĐH ở Việt Nam đang tuyển dưới chỉ tiêu, thậm chí có một số nghành học không tuyển được thí sinh nào.
Nhu cầu về xếp hạng đại học đã được xác định là một nhiệm vụ trọng tâm của bộ Giáo Dục và Đào Tạo. Bạn đọc quan tâm có thể tham khảo kĩ hơn ở đây.
Hiện tại đã có một số nhóm nghiên cứu độc lập thực hiện xếp hạng cho các đại học ở Việt Nam và kết quả là lần đầu tiên có 49 trường được có mặt trong danh sách xếp hạng này. Kết quả (cũng như các tranh luận về sự hợp lí) của bảng xếp hạng này bạn đọc có thể tham khảo ở đây.
Như chúng ta có thể thấy các cách xếp hạng đại học Việt Nam thường là căn cứ vào một trong những phương pháp xếp hạng đại học đã biết với những điều chỉnh cụ thể cho phù hợp với điều kiện của Việt Nam. Cụ thể các hướng điều chỉnh này bao gồm: (1) chọn tiêu chí nào để đánh giá, và (2) gán trọng số cho các tiêu chí đã được chọn.
Cụ thể, đại học Bách Khoa Hà Nội đề xuất 9 tiêu chí với các trọng số để xếp hạng đại học được mô tả chi tiết ở đây.
Vấn đề của tất cả các cách xếp hạng đối với tình huống ở Việt Nam là: rất nhiều tiêu chí khó đo lường, hoặc trong nhiều tính huống thì đo lường các tiêu chí được chọn là không thể thực hiện được với nhiều trường đại học.
Do vậy vấn đề cần giải quyết đầu tiên là nên chọn các tiêu chí nào là phù hợp để đánh giá đại học. Tiêu chí đó phải thỏa mãn ít nhất ba tiêu chuẩn sau: (1) dễ dàng xác minh và đo lường, nguồn dữ liệu để tính các chỉ tiêu này là tin cậy và có thể so sánh - đối chiếu, và (3) sử dụng ít nhất các tiêu chí nhưng vẫn đảm bảo rằng kết quả xếp hạng là đủ tin cậy để sử dụng.
Tương tự như các tổ chức xếp hạng khác, The US News hàng năm cũng thực hiện xếp hạng các đại học trên thế giới căn cứ vào 13 tiêu chí được mô tả chi tiết ở đây.
Người viết bài này đề xuất hướng xếp hạng đại học dựa trên các tiêu chí mà tạp chí này sử dụng nhưng theo hướng giảm các tiêu chí đầu vào. Việc này đặc biệt có ý nghĩa vì rằng nếu sử dụng nguyên 13 tiêu chí này thì với nhiều trường đại học ở Việt Nam là không thể đo lường và xác định.
Mục tiêu của bài viết này là hướng vào trả lời câu hỏi Liệu sử dụng ít biến số hơn (ít tiêu chí đầu vào hơn) thì kết quả xếp hạng có đủ tốt hay không? để từ đó đề xuất sử dụng một bộ các biến số phù hợp khi xếp hạng các đại học trong điều kiện của Việt Nam.
Trước hết chúng ta thu thập dữ liệu của 300 đại học hàng đầu năm 2018 được xếp hạng bởi US News. Nếu bạn đọc nào không thạo lấy dữ liệu từ Website thì có thể không cần quan tâm nhiều đến các chi tiết kĩ thuật của R codes dưới đây:
#===========================================================================
# State 1: Stage 1: Scraping Data For The Best 300 Global Universities
# from https://www.usnews.com/education/best-global-universities/rankings
#===========================================================================
# Load some package:
library(rvest)
library(tidyverse)
library(magrittr)
# Function gets all university links from a page:
get_link_from_page <- function(x) {
x %>%
read_html(x) %>%
html_nodes("a") %>%
html_attr("href") -> k
k1 <- k[str_detect(k, "https://www.usnews.com/education/best-global-universities")]
return(k1[str_detect(k1, "[0-9$]")])
}
# Get all links from 30 pages:
all_links <- lapply(paste0("https://www.usnews.com/education/best-global-universities/rankings?page=", 1:30), get_link_from_page) %>%
unlist()
# A function collects data for an university:
get_data_for_university <- function(x) {
x %>%
read_html() -> html_content
html_content %>%
html_nodes('.t-slack.sep div') %>%
html_text() %>%
str_squish() -> my_raw_data
my_raw_data %>%
matrix(ncol = 2, byrow = TRUE) %>%
as.data.frame() %>%
mutate_all(as.character) -> raw_df1
html_content %>%
html_nodes('.thumb-left') %>%
html_text() %>%
str_squish() -> rank_field
rank_field[-c(1:2)] -> rank_field
html_content %>%
html_nodes('.t-large a') %>%
html_text() %>%
str_squish() -> field_name
raw_df2 <- data_frame(field = field_name, rank = rank_field)
raw_df2 %>%
spread(value = "rank", key = "field") -> raw_df2_wide
raw_df1 %>%
spread(value = "V1", key = "V2") -> raw_df1_wide
# Get Uni Name + address:
html_content %>%
html_nodes('.h-biggest') %>%
html_text() %>%
str_squish() -> uni_name
html_content %>%
html_nodes('.clearfix .t-slack:nth-child(3)') %>%
html_text() %>%
str_squish() -> uni_add
full_join(raw_df1_wide %>% mutate(uni_name = uni_name),
raw_df2_wide %>% mutate(uni_name = uni_name, uni_add = uni_add),
by = "uni_name") -> df_for_university
return(df_for_university)
}
# Use above function for collecting data for 300 universities:
all_data_for_uni <- lapply(all_links[1:300], get_data_for_university)
#====================================
# State 2: Data Preprocessing
#====================================
# Use Reduce() in conjunction with intersect() for identifying common columns:
common_columns <- Reduce(intersect, lapply(all_data_for_uni, names))
# Final data frame:
final_df <- do.call("bind_rows",
lapply(all_data_for_uni, function (x) {x %>% select(common_columns)}))
# Rename for columns and convert some non-numeric ones to numeric:
names(final_df) <- str_replace_all(names(final_df), " ", "_")
final_df %<>%
select(-uni_add, -Best_Global_Universities) %>%
mutate(uni_name = str_replace_all(uni_name, "--", "-") %>% as.factor(), Global_score = as.factor(Global_score)) %>%
mutate_if(is.character, function(x) {x %>% str_replace_all("[^0-9]", "") %>% as.numeric()}) %>%
mutate(Global_score = as.character(Global_score) %>% as.numeric(), uni_name = as.character(uni_name))
Trước hết chúng ta có thể thấy, ví dụ, một số chỉ số có tương quan thuận đến thứ hạng của đại học. Một trong các biến số đó là “Number of Publications That Are Among the 10 Percent Most Cited”:
# Make a draft plot:
library(extrafont)
library(ggrepel)
my_font <- "OfficinaSansITC"
my_gray_theme <- function(...) {
theme_minimal() +
theme(plot.background = element_rect(fill = "#f5f5f2", color = NA)) +
theme(plot.title = element_text(family = my_font, size = 17)) +
theme(plot.subtitle = element_text(family = my_font, size = 15, colour = "gray40")) +
theme(plot.caption = element_text(family = my_font, size = 15, color = "gray50")) +
theme(axis.text = element_text(family = my_font, size = 13, face = "bold", color = "gray50")) +
theme(axis.title = element_text(family = my_font, size = 15, face = "bold", colour = "gray20"))
}
final_df %>%
ggplot(aes(Number_of_publications_that_are_among_the_10_percent_most_cited, Global_score)) +
geom_point(alpha = 0.5, size = 5, color = "firebrick") +
geom_text_repel(data = final_df %>% slice(1:20),
aes(label = uni_name), force = 19, size = 4, color = "gray35", family = my_font) +
geom_smooth(method = "lm", fill = "orange", color = "gray50", alpha = 0.2) +
scale_x_log10() +
my_gray_theme() +
labs(x = "Publication Rank", y = "Global Score",
title = "The Relationship Between Ranking and Publication Rank for The 10 Percent Most Cited Research Papers",
caption = "Source: https://www.usnews.com")
Tương quang giữa “Number of Publications That Are Among the 10 Percent Most Cited” và thứ hạng của đại học là một số âm như ta có thể thấy:
# A negative correlation between the two variables:
cor(final_df$Number_of_publications_that_are_among_the_10_percent_most_cited, final_df$Global_score)
## [1] -0.7553178
Nhìn cái đường dốc xuống có thể có ấn tượng nhầm rằng “Number of Publications That Are Among the 10 Percent Most Cited” và thứ hạng đại học tương quan ngược. Nguyên nhân là “Number of Publications That Are Among the 10 Percent Most Cited” được đo bằng thứ hạng chứ không phải số lượng xuất bản. Như vậy thì thứ hạng càng nhỏ (tức xuất bản thuộc 10 Percent Most Cited càng nhiều) thì trường càng có thứ hạng cao.
Dưới đây chúng ta khảo sát việc sử dụng Random Forest (RF) - một cách tiếp cận của Machine Learning để xếp hạng các đại học dựa trên toàn bộ 13 biến số đầu vào theo cách tiếp cận của tạp chí US News.
Cụ thể, 70% quan sát trong số 300 đại học sẽ được lấy ngẫu nhiên làm dữ liệu huấn luyện RF và 30% dữ liệu còn lại được sử dụng để test khả năng xếp hạng của RF:
#=========================================================
# Stage 3: Use Random Forest for ranking universities
#=========================================================
# Split data:
set.seed(123)
train_df <- final_df %>% sample_frac(0.7, replace = FALSE)
test_df <- dplyr::setdiff(final_df, train_df)
# Set conditions for training RF model:
library(caret)
set.seed(1)
train.control <- trainControl(method = "repeatedcv",
number = 5,
repeats = 5)
# Function for training RF:
rf_with_inputs <- function(train_df_selected) {
set.seed(1)
my_rf <- train(Global_score ~.,
data = train_df_selected %>% select(-uni_name),
method = "rf",
metric = "RMSE",
importance = TRUE,
trainControl = train.control)
return(my_rf)
}
# Use this function:
rf_13 <- rf_with_inputs(train_df)
Chúng ta thấy rằng kết quả xếp hạng từ RF là rất sát với thực tế:
# Function for predicting rankings and comparing:
show_results <- function(model, test_df_selected) {
# Create a data frame for comparing actuals and predictions:
df_comp <- data_frame(uni_name = test_df_selected$uni_name,
Actual_scores = test_df_selected$Global_score,
Predicted_scores = predict(model, test_df_selected %>% select(-uni_name)),
Error = Actual_scores - Predicted_scores,
Error_percent = 100*Error / Actual_scores) %>%
mutate_if(is.numeric, function(x) {round(x, 1)})
return(df_comp)
}
# Fuction for show results by table:
my_table <- function(df) {
df %>%
rename(University = uni_name) %>%
select(-Error) %>%
knitr::kable()
}
# Actual and Predicted Rankings:
df_comp <- show_results(rf_13, test_df)
df_comp %>% my_table()
University | Actual_scores | Predicted_scores | Error_percent |
---|---|---|---|
Stanford University | 93.8 | 92.9 | 0.9 |
University of California-Berkeley | 90.8 | 89.4 | 1.5 |
University of Oxford | 87.6 | 87.9 | -0.4 |
California Institute of Technology | 85.9 | 78.0 | 9.2 |
Columbia University | 85.6 | 83.4 | 2.5 |
Princeton University | 84.7 | 79.4 | 6.3 |
University of Washington | 84.6 | 83.9 | 0.8 |
Yale University | 84.2 | 82.5 | 2.1 |
University of California-Los Angeles | 83.6 | 82.6 | 1.2 |
University of California-San Francisco | 83.2 | 83.0 | 0.2 |
Imperial College London | 82.3 | 82.3 | 0.0 |
University of Toronto | 81.9 | 82.8 | -1.1 |
University College London | 81.6 | 82.1 | -0.6 |
Duke University | 81.2 | 80.6 | 0.8 |
University of Melbourne | 77.5 | 76.3 | 1.6 |
Washington University in St. Louis | 76.3 | 76.2 | 0.1 |
University of Copenhagen | 75.7 | 76.8 | -1.4 |
University of Minnesota-Twin Cities | 74.5 | 75.9 | -1.9 |
University of Queensland Australia | 74.4 | 73.4 | 1.3 |
University of Colorado-Boulder | 74.1 | 72.0 | 2.8 |
University of Pittsburgh | 74.1 | 74.5 | -0.5 |
Boston University | 74.0 | 72.1 | 2.6 |
University of Munich | 74.0 | 73.5 | 0.7 |
University of Maryland-College Park | 73.2 | 71.3 | 2.6 |
Monash University | 72.2 | 71.2 | 1.4 |
Universite Sorbonne Paris Cite-USPC (ComUE) | 72.2 | 73.8 | -2.3 |
University of Tokyo | 72.2 | 72.8 | -0.9 |
King Abdulaziz University | 70.8 | 68.4 | 3.3 |
University of Bristol | 70.7 | 69.6 | 1.6 |
Technical University of Munich | 70.0 | 69.4 | 0.8 |
Carnegie Mellon University | 69.7 | 66.3 | 4.8 |
Lund University | 69.1 | 68.9 | 0.3 |
University of Geneva | 69.1 | 67.9 | 1.8 |
University of Oslo | 68.2 | 68.3 | -0.1 |
Brown University | 68.1 | 67.3 | 1.2 |
University of Hong Kong | 67.7 | 66.1 | 2.3 |
Uppsala University | 67.7 | 67.9 | -0.3 |
Queen Mary, University of London | 67.2 | 65.8 | 2.1 |
Weizmann Institute of Science | 66.8 | 63.7 | 4.6 |
Purdue University-West Lafayette | 66.7 | 66.1 | 0.9 |
Stockholm University | 66.2 | 64.4 | 2.7 |
Freie Universität Berlin | 66.1 | 67.5 | -2.2 |
Kyoto University | 65.6 | 65.7 | -0.2 |
University of Basel | 65.4 | 64.8 | 0.9 |
University of Bologna | 65.3 | 65.0 | 0.4 |
Communaute Universite Grenoble Alpes | 65.2 | 64.3 | 1.4 |
Sapienza University of Rome | 65.2 | 66.0 | -1.2 |
McMaster University | 65.0 | 65.9 | -1.3 |
University Catholique of Louvain | 64.2 | 62.7 | 2.3 |
Shanghai Jiao Tong University | 64.1 | 66.0 | -3.0 |
Universite de Lyon (ComUE) | 64.0 | 63.6 | 0.6 |
University of Leeds | 63.6 | 63.9 | -0.4 |
University of Exeter | 63.3 | 62.7 | 0.9 |
University of Gothenburg | 63.2 | 63.4 | -0.3 |
University of Freiburg | 63.0 | 62.4 | 0.9 |
Pompeu Fabra University | 62.6 | 61.1 | 2.4 |
Stony Brook University-SUNY | 62.6 | 61.7 | 1.4 |
Delft University of Technology | 62.3 | 60.3 | 3.2 |
RWTH Aachen University | 61.4 | 60.8 | 1.1 |
Hebrew University of Jerusalem | 60.5 | 60.2 | 0.5 |
University of Witwatersrand | 59.9 | 58.6 | 2.1 |
University of Tennessee | 59.7 | 60.0 | -0.5 |
Royal Institute of Technology | 59.5 | 59.1 | 0.7 |
University of Notre Dame | 59.5 | 58.3 | 2.0 |
University of Ottawa | 59.5 | 61.6 | -3.5 |
Osaka University | 59.1 | 60.3 | -2.0 |
Languedoc-Roussillon Universites (ComUE) | 59.0 | 60.0 | -1.6 |
North Carolina State University-Raleigh | 59.0 | 59.0 | 0.0 |
Sun Yat-sen University | 58.9 | 61.0 | -3.6 |
University of Naples Federico II | 58.8 | 59.7 | -1.5 |
Tohoku University | 58.7 | 59.7 | -1.6 |
University of Erlangen Nuremberg | 58.6 | 59.8 | -2.0 |
Griffith University | 58.1 | 58.5 | -0.6 |
Lancaster University | 58.0 | 57.7 | 0.6 |
James Cook University | 57.8 | 57.9 | -0.1 |
University of Technology Sydney | 57.8 | 57.1 | 1.1 |
Brandeis University | 57.5 | 61.7 | -7.3 |
University at Buffalo-SUNY | 57.4 | 58.6 | -2.0 |
University of Trieste | 57.4 | 58.0 | -1.1 |
University of Pavia | 56.8 | 57.2 | -0.7 |
University of Kansas | 56.6 | 58.8 | -3.9 |
Colorado State University | 56.3 | 58.1 | -3.2 |
University of Wollongong | 56.2 | 56.9 | -1.2 |
University of Newcastle | 56.0 | 57.3 | -2.4 |
Polytechnic University of Milan | 55.8 | 57.4 | -2.9 |
University of Georgia | 55.8 | 58.2 | -4.3 |
University of South Florida | 55.6 | 58.6 | -5.4 |
University of Nebraska-Lincoln | 55.3 | 57.1 | -3.2 |
University of Innsbruck | 55.1 | 57.4 | -4.2 |
University of Southern Denmark | 55.1 | 56.5 | -2.5 |
Chúng ta có thể đánh giá mức độ “tương hợp” giữa kết quả dự báo và thực tế bằng công cụ hình ảnh:
# Agreement between actuals and predictions by using scatter plot:
df_comp %>%
ggplot(aes(Actual_scores, Predicted_scores)) +
geom_point(alpha = 0.5, color = "firebrick", size = 3) +
theme_minimal() +
labs(x = "Actual Scores", y = "Predicted Scores",
title = "Figure 1: Concordance between Actuals and Predictions, 13 Variables Used",
caption = "Data Source: https://www.usnews.com") +
my_gray_theme()
Kết quả trên chỉ ra rằng nếu sử dụng toàn bộ 13 biến số thì kết quả dự báo của RF là rất tốt. Tuy nhiên như đã phân tích, nếu sử dụng cả 13 biến số này như cách làm của The US News để xếp hạng đại học là không thể trong điều kiện của Việt Nam. Vì nhiều biến số trong danh sách này là rất khó tính toán hoặc có thể tính toán nhưng với chi phí rất lớn về thời gian.
Trước hết ta xem lại danh sách 13 biến số này cùng trọng số tương ứng của chúng:
# Variables used by US News:
read_html("https://www.usnews.com/education/best-global-universities/articles/methodology") %>%
html_table() %>%
.[[1]] %>%
slice(-1) %>%
rename(Indicator = X1, Weight = X2) -> us_factors
us_factors %>%
mutate(Weight = str_replace_all(Weight, "[^0-9]", "") %>% as.numeric() / 10) %>%
mutate(Weight = case_when(Weight %in% c(0.5, 1) ~ 10*Weight , TRUE ~ Weight)) %>%
arrange(-Weight) %>%
mutate(Weight = paste0(Weight, "%")) %>%
knitr::kable(caption = "Tabel 1: Indicators that Affect University Ranking by Decreasing Importance proposed by US News")
Indicator | Weight |
---|---|
Global research reputation | 12.5% |
Regional research reputation | 12.5% |
Number of publications that are among the 10 percent most cited | 12.5% |
Publications | 10% |
Normalized citation impact | 10% |
Percentage of total publications that are among the 10 percent most cited | 10% |
Total citations | 7.5% |
International collaboration | 5% |
Percentage of total publications with international collaboration | 5% |
Number of highly cited papers that are among the top 1 percent most cited in their respective field | 5% |
Percentage of total publications that are among the top 1 percent most highly cited papers | 5% |
Books | 2.5% |
Conferences | 2.5% |
Chúng ta so sánh “trọng số” của các biến số này theo thuật toán RF:
varImp(rf_13) %>%
.[[1]] %>%
mutate(Indicator = row.names(.) %>% str_replace_all("_", " ")) %>%
select(Indicator, Overall) %>%
arrange(-Overall) -> var_importances
var_importances %>%
knitr::kable(caption = "Tabel 2: Indicators that Affect University Ranking by Decreasing Importance based on RF Model")
Indicator | Overall |
---|---|
Number of publications that are among the 10 percent most cited | 100.000000 |
Percentage of total publications that are among the 10 percent most cited | 99.932522 |
Number of highly cited papers that are among the top 1 percent most cited | 99.662379 |
Total citations | 88.703778 |
Global research reputation | 83.919730 |
Normalized citation impact | 79.973269 |
Percentage of highly cited papers that are among the top 1 percent most cited | 67.924769 |
Publications | 57.425161 |
Regional research reputation | 48.737263 |
Books | 38.401465 |
Conferences | 10.057980 |
International collaboration | 5.214785 |
Percentage of total publications with international collaboration | 0.000000 |
Kết quả này chỉ ra rằng cách trọng số của các biến - hiểu theo nghĩa là mức độ ảnh hưởng của các biến số này đến khả năng xếp hạng đại học là có chút khác biệt.
Hiện tại, với hiểu biết hạn chế của người viết bài này thì có thể các biến số sau là khó có thể tính toán / thu thập hoặc chúng - nếu được lựa chọn có thể là các biến không phản ánh thực tế thứ hạng trong bối cảnh Việt Nam:
Chẳng hạn, tiêu chí “Book”. Nhiều đại học ở VN gần như không xuất bản sách, không có nhà in riêng. Một số đại học thì xuất bản rất nhiều sách nhưng trong số đó một lượng lớn là sách dịch của các tác giả có uy tín. Một số trường thì một số tác giả gọi là có sách nhưng chúng có thể được copy là chính từ một đồng nghiệp (nạn đạo sách) từ nước ngoài. Có thể là nguyên cả cuốn sách hoặc cả một chương sách.
Với tiêu chí “Percentage of highly cited papers that are among the top 1 percent most cited” thì gần như không thể có với các đại học Việt Nam nên nếu lấy biến này thì chúng ta sẽ có một biến mà giới thống kê gọi là Near-Zero Variance Variable.
Do vậy, với điều kiện Việt Nam chúng ta có thể loại bỏ các biến này ra khỏi mô hình. Chúng ta xem kết quả dự báo của RF ra sao khi các biến đầu vào được sử dụng chỉ còn 13 - 6 = 7:
# Các biến được loại bỏ:
remove_variables <- c("Global research reputation",
"Normalized citation impact",
"Regional research reputation",
"Books",
"International collaboration",
"Percentage of highly cited papers that are among the top 1 percent most cited")
remove_variables %<>% str_replace_all(" ", "_")
# Dữ liệu còn lại:
train_df_7 <- train_df %>% select(-remove_variables)
test_df_7 <- test_df %>% select(-remove_variables)
# Huấn luyện lại RF mà không sử dụng 6 biến số này:
rf_7 <- rf_with_inputs(train_df_7)
Chỉ sử dụng 7 biến số này thì kết quả xếp hạng đại học dự báo từ mô hình RF so với thứ hạng thực tế như sau:
University | Actual_scores | Predicted_scores | Error_percent |
---|---|---|---|
Stanford University | 93.8 | 94.1 | -0.3 |
University of California-Berkeley | 90.8 | 88.2 | 2.9 |
University of Oxford | 87.6 | 89.5 | -2.2 |
California Institute of Technology | 85.9 | 75.3 | 12.4 |
Columbia University | 85.6 | 82.6 | 3.5 |
Princeton University | 84.7 | 74.3 | 12.2 |
University of Washington | 84.6 | 86.4 | -2.1 |
Yale University | 84.2 | 81.6 | 3.0 |
University of California-Los Angeles | 83.6 | 82.3 | 1.5 |
University of California-San Francisco | 83.2 | 84.3 | -1.4 |
Imperial College London | 82.3 | 82.3 | 0.0 |
University of Toronto | 81.9 | 88.0 | -7.5 |
University College London | 81.6 | 84.6 | -3.7 |
Duke University | 81.2 | 81.3 | -0.1 |
University of Melbourne | 77.5 | 76.2 | 1.7 |
Washington University in St. Louis | 76.3 | 75.3 | 1.3 |
University of Copenhagen | 75.7 | 79.5 | -5.1 |
University of Minnesota-Twin Cities | 74.5 | 76.6 | -2.8 |
University of Queensland Australia | 74.4 | 74.2 | 0.3 |
University of Colorado-Boulder | 74.1 | 71.4 | 3.7 |
University of Pittsburgh | 74.1 | 76.4 | -3.1 |
Boston University | 74.0 | 72.0 | 2.7 |
University of Munich | 74.0 | 73.2 | 1.0 |
University of Maryland-College Park | 73.2 | 70.6 | 3.5 |
Monash University | 72.2 | 70.9 | 1.8 |
Universite Sorbonne Paris Cite-USPC (ComUE) | 72.2 | 77.3 | -7.1 |
University of Tokyo | 72.2 | 72.7 | -0.7 |
King Abdulaziz University | 70.8 | 70.6 | 0.3 |
University of Bristol | 70.7 | 69.6 | 1.6 |
Technical University of Munich | 70.0 | 68.7 | 1.9 |
Carnegie Mellon University | 69.7 | 63.7 | 8.6 |
Lund University | 69.1 | 68.1 | 1.4 |
University of Geneva | 69.1 | 69.5 | -0.6 |
University of Oslo | 68.2 | 68.2 | 0.0 |
Brown University | 68.1 | 65.5 | 3.9 |
University of Hong Kong | 67.7 | 63.4 | 6.4 |
Uppsala University | 67.7 | 67.8 | -0.2 |
Queen Mary, University of London | 67.2 | 65.2 | 3.0 |
Weizmann Institute of Science | 66.8 | 61.6 | 7.7 |
Purdue University-West Lafayette | 66.7 | 64.6 | 3.2 |
Stockholm University | 66.2 | 62.7 | 5.3 |
Freie Universität Berlin | 66.1 | 67.3 | -1.9 |
Kyoto University | 65.6 | 64.1 | 2.3 |
University of Basel | 65.4 | 65.5 | -0.2 |
University of Bologna | 65.3 | 65.1 | 0.3 |
Communaute Universite Grenoble Alpes | 65.2 | 66.6 | -2.2 |
Sapienza University of Rome | 65.2 | 65.9 | -1.0 |
McMaster University | 65.0 | 66.0 | -1.6 |
University Catholique of Louvain | 64.2 | 61.7 | 3.9 |
Shanghai Jiao Tong University | 64.1 | 67.2 | -4.9 |
Universite de Lyon (ComUE) | 64.0 | 63.4 | 1.0 |
University of Leeds | 63.6 | 64.4 | -1.2 |
University of Exeter | 63.3 | 63.7 | -0.6 |
University of Gothenburg | 63.2 | 63.3 | -0.2 |
University of Freiburg | 63.0 | 63.0 | -0.1 |
Pompeu Fabra University | 62.6 | 59.6 | 4.8 |
Stony Brook University-SUNY | 62.6 | 61.1 | 2.4 |
Delft University of Technology | 62.3 | 59.4 | 4.7 |
RWTH Aachen University | 61.4 | 60.7 | 1.2 |
Hebrew University of Jerusalem | 60.5 | 58.1 | 3.9 |
University of Witwatersrand | 59.9 | 57.3 | 4.4 |
University of Tennessee | 59.7 | 60.6 | -1.5 |
Royal Institute of Technology | 59.5 | 59.2 | 0.6 |
University of Notre Dame | 59.5 | 57.5 | 3.4 |
University of Ottawa | 59.5 | 61.9 | -4.0 |
Osaka University | 59.1 | 59.3 | -0.3 |
Languedoc-Roussillon Universites (ComUE) | 59.0 | 62.2 | -5.4 |
North Carolina State University-Raleigh | 59.0 | 58.5 | 0.8 |
Sun Yat-sen University | 58.9 | 61.8 | -4.8 |
University of Naples Federico II | 58.8 | 61.4 | -4.4 |
Tohoku University | 58.7 | 59.2 | -0.9 |
University of Erlangen Nuremberg | 58.6 | 61.1 | -4.3 |
Griffith University | 58.1 | 57.6 | 0.8 |
Lancaster University | 58.0 | 56.5 | 2.6 |
James Cook University | 57.8 | 56.4 | 2.5 |
University of Technology Sydney | 57.8 | 56.5 | 2.2 |
Brandeis University | 57.5 | 60.1 | -4.5 |
University at Buffalo-SUNY | 57.4 | 58.5 | -1.8 |
University of Trieste | 57.4 | 57.8 | -0.7 |
University of Pavia | 56.8 | 58.0 | -2.2 |
University of Kansas | 56.6 | 58.9 | -4.0 |
Colorado State University | 56.3 | 58.0 | -3.1 |
University of Wollongong | 56.2 | 56.2 | 0.1 |
University of Newcastle | 56.0 | 56.6 | -1.0 |
Polytechnic University of Milan | 55.8 | 57.3 | -2.7 |
University of Georgia | 55.8 | 57.8 | -3.5 |
University of South Florida | 55.6 | 59.1 | -6.3 |
University of Nebraska-Lincoln | 55.3 | 57.1 | -3.3 |
University of Innsbruck | 55.1 | 57.6 | -4.5 |
University of Southern Denmark | 55.1 | 56.9 | -3.2 |
Chúng ta có thể sử dụng công cụ hình ảnh để đánh giá:
df_comp7 %>%
ggplot(aes(Actual_scores, Predicted_scores)) +
geom_point(alpha = 0.5, color = "firebrick", size = 3) +
theme_minimal() +
labs(x = "Actual Scores", y = "Predicted Scores",
title = "Figure 2: Concordance between Actuals and Predictions, 7 Variables Used",
caption = "Data Source: https://www.usnews.com") +
my_gray_theme()
Tương quan giữa giá trị thực tế và dự báo (một thước đo thể hiện mức độ chính xác của mô hình khi dự báo thứ hạng đại học) giữa mô hình sử dụng 13 biến so với mô hình sử dụng chỉ 7 biến số là chênh lệch không đáng kể như ta có thể thấy:
## [1] 0.9865711
## [1] 0.9615697
Từ các kết quả trên chúng ta rút ra các kết luận sau:
Việc sử dụng chỉ hơn 50% biến số so với sử dụng toàn bộ các biến (tiêu chí) như của tạp chí US News đề xuất không làm giảm đáng kể khả năng xếp hạng đại học. Điều này hàm ý rằng xếp hạng các đại học trong bối cảnh Việt Nam có thể chỉ cần sử dụng 7 (hoặc ít hơn) các biến số so với 13 biến nếu áp dụng nguyên cách tiếp cận của US News mà vẫn có thể đảm bảo tích chính xác khi xếp hạng.
Cách thức gán trọng số cho các biến khi đánh giá thứ hạng của đại học của RF so với trọng số được sử dụng bởi US News (có lẽ các chuyên gia giáo dục và quản lí đại học đề xuất các trọng số này cho US News) là khác biệt nhưng kết quả dự báo với trọng số theo kiểu của RF lại rất chính khi dự báo thứ hạng. Chắc chắn việc gán các trọng số cho các biến sử dụng luôn là vấn đề gây tranh cãi giữa các chuyên gia và do đó trọng số của các biến gợi ý bởi RF nên được tham khảo và sử dụng.