library(tidyverse)

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──

## ✔ ggplot2 3.3.6     ✔ purrr   0.3.4
## ✔ tibble  3.1.7     ✔ dplyr   1.0.9
## ✔ tidyr   1.2.0     ✔ stringr 1.4.0
## ✔ readr   2.1.2     ✔ forcats 0.5.1

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

library(gtsummary)

## #Uighur

#讀取資料
dta <- read.csv("c:/Users/tena8/Desktop/1102/ncku_prof_V6.csv", h=T, stringsAsFactors = TRUE)

#資料的內容
head(dta)

##      ID Initial Citation H.id Gender Degree Rank College Dept Grads  FPY
## 1 10001     YCC      305    9      M      D    3     ENG  ESC     3 2013
## 2 10002     CYC      355   11      M      D    2     ENG  ESC    10 2008
## 3 10003     HBC     3452   10      M      D    1     ENG  ESC     0 2011
## 4 10004     HHC    15808   65      M      O    1     ENG  ESC    92 1997
## 5 10005     JSC      280   10      F      O    2     ENG  ESC    25 2011
## 6 10006     MYC     2506   22      M      D    2     ENG  ESC    41 2002
##   Articles StuApp Colprof
## 1       30    169     309
## 2       22    169     309
## 3       14    169     309
## 4      349    169     309
## 5       23    169     309
## 6       90    169     309

str(dta)

## 'data.frame':    460 obs. of  14 variables:
##  $ ID      : int  10001 10002 10003 10004 10005 10006 10007 10008 10009 10010 ...
##  $ Initial : Factor w/ 347 levels "BCT","BHC","BLC",..: 308 60 81 90 145 201 293 176 198 276 ...
##  $ Citation: int  305 355 3452 15808 280 2506 672 5735 1118 685 ...
##  $ H.id    : int  9 11 10 65 10 22 14 40 19 14 ...
##  $ Gender  : Factor w/ 2 levels "F","M": 2 2 2 2 1 2 2 2 2 2 ...
##  $ Degree  : Factor w/ 2 levels "D","O": 1 1 1 2 2 1 1 1 2 1 ...
##  $ Rank    : int  3 2 1 1 2 2 1 1 2 1 ...
##  $ College : Factor w/ 5 levels "ENG","LIB","MNG",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Dept    : Factor w/ 25 levels "ACC","BAD","CEN",..: 10 10 10 10 10 10 10 10 10 10 ...
##  $ Grads   : int  3 10 0 92 25 41 36 54 74 195 ...
##  $ FPY     : int  2013 2008 2011 1997 2011 2002 2008 2001 1994 1991 ...
##  $ Articles: int  30 22 14 349 23 90 36 123 26 70 ...
##  $ StuApp  : int  169 169 169 169 169 169 169 169 169 169 ...
##  $ Colprof : int  309 309 309 309 309 309 309 309 309 309 ...

Assessment 1

bdta <- dta %>%
  filter(H.id > 12) %>%
  select(College, Gender, Degree, H.id, Grads, Rank)

###後六筆資料

tail(bdta)

##     College Gender Degree H.id Grads Rank
## 187     MNG      F      D   14    17    2
## 188     MNG      M      O   13    89    1
## 189     MNG      M      D   15    27    2
## 190     MNG      M      D   17    26    1
## 191     MNG      M      D   27    23    1
## 192     MNG      M      D   14     9    2

Assessment 2

newdta <- dta %>%
  mutate(academicy = 2022 - FPY,
         academicy_m = Grads / academicy) %>%
  head()

head(newdta)

##      ID Initial Citation H.id Gender Degree Rank College Dept Grads  FPY
## 1 10001     YCC      305    9      M      D    3     ENG  ESC     3 2013
## 2 10002     CYC      355   11      M      D    2     ENG  ESC    10 2008
## 3 10003     HBC     3452   10      M      D    1     ENG  ESC     0 2011
## 4 10004     HHC    15808   65      M      O    1     ENG  ESC    92 1997
## 5 10005     JSC      280   10      F      O    2     ENG  ESC    25 2011
## 6 10006     MYC     2506   22      M      D    2     ENG  ESC    41 2002
##   Articles StuApp Colprof academicy academicy_m
## 1       30    169     309         9   0.3333333
## 2       22    169     309        14   0.7142857
## 3       14    169     309        11   0.0000000
## 4      349    169     309        25   3.6800000
## 5       23    169     309        11   2.2727273
## 6       90    169     309        20   2.0500000

Assessment 3

3-1

dta %>%
  group_by(College, Gender, Rank, Degree) %>%
  summarize(mean_H.id = mean(H.id, na.rm = TRUE),
            sd_H.id = sd(H.id),
            v_H.id = var(H.id),
            max_H.id = max(H.id),
            min_H.id = min(H.id), 
            count = n()) %>%
  arrange(desc(mean_H.id))

## `summarise()` has grouped output by 'College', 'Gender', 'Rank'. You can
## override using the `.groups` argument.

## # A tibble: 53 × 10
## # Groups:   College, Gender, Rank [30]
##    College Gender  Rank Degree mean_H.id sd_H.id v_H.id max_H.id min_H.id count
##    <fct>   <fct>  <int> <fct>      <dbl>   <dbl>  <dbl>    <int>    <int> <int>
##  1 ENG     F          1 D           34     10.4   108         46       28     3
##  2 ENG     M          1 D           24.4   11.0   121.        54        6    28
##  3 ENG     M          1 O           24.2   13.9   192.        92        3    76
##  4 SCI     M          1 D           21     16.1   258         39        6     4
##  5 ENG     F          1 O           19.5    9.71   94.3       32       10     4
##  6 SCI     M          1 O           18.8   15.2   231.        58        3    24
##  7 SCI     F          1 O           18.2   14.4   206.        34        3     5
##  8 ENG     M          2 D           17.3    6.81   46.4       40       10    20
##  9 MNG     M          1 D           16      6.48   42         27        8     6
## 10 MNG     F          1 O           15.2    8.54   72.9       27        8     4
## # … with 43 more rows

3-2.1

H.id平均數最高的群組特質為：工學院、女性、Rank=1(教授)、本土學位國籍

H.id平均數最低的群組特質為：文學院、女性、Rank=2(副教授)、本土學位國籍

3-2.2

如果只以平均學術產能來看可能不夠準確，有一點過度推論，因為還需要考量到其他因素的影響。

dta %>%
    count(College, Gender)

##    College Gender   n
## 1      ENG      F  17
## 2      ENG      M 167
## 3      LIB      F  34
## 4      LIB      M  29
## 5      MNG      F  24
## 6      MNG      M  60
## 7      SCI      F  14
## 8      SCI      M  58
## 9      SSC      F  22
## 10     SSC      M  35

從上述的結果來看，工學院中女性教授的人遠比男性教授少很多，所以不能直接這樣比較論述。

3-2.3

有四位文學院且本土學位國籍的教授的學術產能為0，但根據文學院的性質，他們可能比較不是發表研究論文，所以這樣的統計方式看起來會對他們比較不利。

Assessment 4

4-1

dta %>%
  select(College, Gender, Degree, Rank) %>%
  tbl_summary(by = College)

## Warning: The `fmt_missing()` function is deprecated and will soon be removed
## * Use the `sub_missing()` function instead

Characteristic	ENG, N = 184¹	LIB, N = 63¹	MNG, N = 84¹	SCI, N = 72¹	SSC, N = 57¹
Gender
F	17 (9.2%)	34 (54%)	24 (29%)	14 (19%)	22 (39%)
M	167 (91%)	29 (46%)	60 (71%)	58 (81%)	35 (61%)
Degree
D	63 (34%)	21 (33%)	25 (30%)	16 (22%)	13 (23%)
O	121 (66%)	42 (67%)	59 (70%)	56 (78%)	44 (77%)
Rank
1	111 (60%)	29 (46%)	36 (43%)	36 (50%)	28 (49%)
2	44 (24%)	29 (46%)	27 (32%)	27 (38%)	22 (39%)
3	29 (16%)	5 (7.9%)	21 (25%)	9 (12%)	7 (12%)
¹ n (%)

4-2

(1)從性別來看，除了文學院的女教授在學術產能的表現高於男教授以外，其他學院都是男教授的學術產能高於女教授。

(2)不管是哪個學院，所有的海外教授的學術產能都比本土教授高。

所以說明有出國讀博士的教授比較會產生學術論文。

(3)rank代表教授的等級，rank 1是教授，2是副教授，3是助理教授。

而不論是在哪一個學院中，教授的學術產能都比副教授和助理教授高，而副教授又比助理教授高。這表示教授的等級和學術產能的多寡有關。

0524

TPY

2022-05-24