library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✔ ggplot2 3.3.6 ✔ purrr 0.3.4
## ✔ tibble 3.1.7 ✔ dplyr 1.0.9
## ✔ tidyr 1.2.0 ✔ stringr 1.4.0
## ✔ readr 2.1.2 ✔ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
library(gtsummary)
## #Uighur
#讀取資料
dta <- read.csv("c:/Users/tena8/Desktop/1102/ncku_prof_V6.csv", h=T, stringsAsFactors = TRUE)
#資料的內容
head(dta)
## ID Initial Citation H.id Gender Degree Rank College Dept Grads FPY
## 1 10001 YCC 305 9 M D 3 ENG ESC 3 2013
## 2 10002 CYC 355 11 M D 2 ENG ESC 10 2008
## 3 10003 HBC 3452 10 M D 1 ENG ESC 0 2011
## 4 10004 HHC 15808 65 M O 1 ENG ESC 92 1997
## 5 10005 JSC 280 10 F O 2 ENG ESC 25 2011
## 6 10006 MYC 2506 22 M D 2 ENG ESC 41 2002
## Articles StuApp Colprof
## 1 30 169 309
## 2 22 169 309
## 3 14 169 309
## 4 349 169 309
## 5 23 169 309
## 6 90 169 309
str(dta)
## 'data.frame': 460 obs. of 14 variables:
## $ ID : int 10001 10002 10003 10004 10005 10006 10007 10008 10009 10010 ...
## $ Initial : Factor w/ 347 levels "BCT","BHC","BLC",..: 308 60 81 90 145 201 293 176 198 276 ...
## $ Citation: int 305 355 3452 15808 280 2506 672 5735 1118 685 ...
## $ H.id : int 9 11 10 65 10 22 14 40 19 14 ...
## $ Gender : Factor w/ 2 levels "F","M": 2 2 2 2 1 2 2 2 2 2 ...
## $ Degree : Factor w/ 2 levels "D","O": 1 1 1 2 2 1 1 1 2 1 ...
## $ Rank : int 3 2 1 1 2 2 1 1 2 1 ...
## $ College : Factor w/ 5 levels "ENG","LIB","MNG",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Dept : Factor w/ 25 levels "ACC","BAD","CEN",..: 10 10 10 10 10 10 10 10 10 10 ...
## $ Grads : int 3 10 0 92 25 41 36 54 74 195 ...
## $ FPY : int 2013 2008 2011 1997 2011 2002 2008 2001 1994 1991 ...
## $ Articles: int 30 22 14 349 23 90 36 123 26 70 ...
## $ StuApp : int 169 169 169 169 169 169 169 169 169 169 ...
## $ Colprof : int 309 309 309 309 309 309 309 309 309 309 ...
bdta <- dta %>%
filter(H.id > 12) %>%
select(College, Gender, Degree, H.id, Grads, Rank)
###後六筆資料
tail(bdta)
## College Gender Degree H.id Grads Rank
## 187 MNG F D 14 17 2
## 188 MNG M O 13 89 1
## 189 MNG M D 15 27 2
## 190 MNG M D 17 26 1
## 191 MNG M D 27 23 1
## 192 MNG M D 14 9 2
newdta <- dta %>%
mutate(academicy = 2022 - FPY,
academicy_m = Grads / academicy) %>%
head()
head(newdta)
## ID Initial Citation H.id Gender Degree Rank College Dept Grads FPY
## 1 10001 YCC 305 9 M D 3 ENG ESC 3 2013
## 2 10002 CYC 355 11 M D 2 ENG ESC 10 2008
## 3 10003 HBC 3452 10 M D 1 ENG ESC 0 2011
## 4 10004 HHC 15808 65 M O 1 ENG ESC 92 1997
## 5 10005 JSC 280 10 F O 2 ENG ESC 25 2011
## 6 10006 MYC 2506 22 M D 2 ENG ESC 41 2002
## Articles StuApp Colprof academicy academicy_m
## 1 30 169 309 9 0.3333333
## 2 22 169 309 14 0.7142857
## 3 14 169 309 11 0.0000000
## 4 349 169 309 25 3.6800000
## 5 23 169 309 11 2.2727273
## 6 90 169 309 20 2.0500000
dta %>%
group_by(College, Gender, Rank, Degree) %>%
summarize(mean_H.id = mean(H.id, na.rm = TRUE),
sd_H.id = sd(H.id),
v_H.id = var(H.id),
max_H.id = max(H.id),
min_H.id = min(H.id),
count = n()) %>%
arrange(desc(mean_H.id))
## `summarise()` has grouped output by 'College', 'Gender', 'Rank'. You can
## override using the `.groups` argument.
## # A tibble: 53 × 10
## # Groups: College, Gender, Rank [30]
## College Gender Rank Degree mean_H.id sd_H.id v_H.id max_H.id min_H.id count
## <fct> <fct> <int> <fct> <dbl> <dbl> <dbl> <int> <int> <int>
## 1 ENG F 1 D 34 10.4 108 46 28 3
## 2 ENG M 1 D 24.4 11.0 121. 54 6 28
## 3 ENG M 1 O 24.2 13.9 192. 92 3 76
## 4 SCI M 1 D 21 16.1 258 39 6 4
## 5 ENG F 1 O 19.5 9.71 94.3 32 10 4
## 6 SCI M 1 O 18.8 15.2 231. 58 3 24
## 7 SCI F 1 O 18.2 14.4 206. 34 3 5
## 8 ENG M 2 D 17.3 6.81 46.4 40 10 20
## 9 MNG M 1 D 16 6.48 42 27 8 6
## 10 MNG F 1 O 15.2 8.54 72.9 27 8 4
## # … with 43 more rows
H.id平均數最高的群組特質為:工學院、女性、Rank=1(教授)、本土學位國籍
H.id平均數最低的群組特質為:文學院、女性、Rank=2(副教授)、本土學位國籍
如果只以平均學術產能來看可能不夠準確,有一點過度推論,因為還需要考量到其他因素的影響。
dta %>%
count(College, Gender)
## College Gender n
## 1 ENG F 17
## 2 ENG M 167
## 3 LIB F 34
## 4 LIB M 29
## 5 MNG F 24
## 6 MNG M 60
## 7 SCI F 14
## 8 SCI M 58
## 9 SSC F 22
## 10 SSC M 35
從上述的結果來看,工學院中女性教授的人遠比男性教授少很多,所以不能直接這樣比較論述。
有四位文學院且本土學位國籍的教授的學術產能為0,但根據文學院的性質,他們可能比較不是發表研究論文,所以這樣的統計方式看起來會對他們比較不利。
dta %>%
select(College, Gender, Degree, Rank) %>%
tbl_summary(by = College)
## Warning: The `fmt_missing()` function is deprecated and will soon be removed
## * Use the `sub_missing()` function instead
| Characteristic | ENG, N = 1841 | LIB, N = 631 | MNG, N = 841 | SCI, N = 721 | SSC, N = 571 |
|---|---|---|---|---|---|
| Gender | |||||
| F | 17 (9.2%) | 34 (54%) | 24 (29%) | 14 (19%) | 22 (39%) |
| M | 167 (91%) | 29 (46%) | 60 (71%) | 58 (81%) | 35 (61%) |
| Degree | |||||
| D | 63 (34%) | 21 (33%) | 25 (30%) | 16 (22%) | 13 (23%) |
| O | 121 (66%) | 42 (67%) | 59 (70%) | 56 (78%) | 44 (77%) |
| Rank | |||||
| 1 | 111 (60%) | 29 (46%) | 36 (43%) | 36 (50%) | 28 (49%) |
| 2 | 44 (24%) | 29 (46%) | 27 (32%) | 27 (38%) | 22 (39%) |
| 3 | 29 (16%) | 5 (7.9%) | 21 (25%) | 9 (12%) | 7 (12%) |
| 1 n (%) | |||||
(1)從性別來看,除了文學院的女教授在學術產能的表現高於男教授以外,其他學院都是男教授的學術產能高於女教授。
(2)不管是哪個學院,所有的海外教授的學術產能都比本土教授高。
所以說明有出國讀博士的教授比較會產生學術論文。
(3)rank代表教授的等級,rank 1是教授,2是副教授,3是助理教授。
而不論是在哪一個學院中,教授的學術產能都比副教授和助理教授高,而副教授又比助理教授高。這表示教授的等級和學術產能的多寡有關。