dta <- read.csv("ncku_prof_V6.csv", h=T, stringsAsFactors = TRUE)

stringsAsFactors = TRUE :把不是數值的varible轉為factors

Assessment 1

bdta <- dta %>%
  filter(H.id > 12) %>%
  select(H.id, Gender, College, Rank, Degree, Grads)
tail(bdta)
##     H.id Gender College Rank Degree Grads
## 187   14      F     MNG    2      D    17
## 188   13      M     MNG    1      O    89
## 189   15      M     MNG    2      D    27
## 190   17      M     MNG    1      D    26
## 191   27      M     MNG    1      D    23
## 192   14      M     MNG    2      D     9

Assessment 2

newdta <- dta %>%
  mutate(academicy = 2022 - FPY,
         Grads_m = Grads / academicy) %>%
  select(H.id, Gender, Degree, Rank, Grads, academicy, Grads_m)
head(newdta)
##   H.id Gender Degree Rank Grads academicy   Grads_m
## 1    9      M      D    3     3         9 0.3333333
## 2   11      M      D    2    10        14 0.7142857
## 3   10      M      D    1     0        11 0.0000000
## 4   65      M      O    1    92        25 3.6800000
## 5   10      F      O    2    25        11 2.2727273
## 6   22      M      D    2    41        20 2.0500000

Assessment 3

dta %>%
  group_by(College, Gender, Rank, Degree) %>%
  summarize(mean_H.id = mean(H.id, na.rm = TRUE),
            sd_H.id = sd(H.id),
            v_H.id = var(H.id),
            min_H.id = min(H.id),
            max_H.id = max(H.id),
            count = n()) %>%
  arrange(desc(mean_H.id))
## `summarise()` has grouped output by 'College', 'Gender', 'Rank'. You can
## override using the `.groups` argument.
## # A tibble: 53 × 10
## # Groups:   College, Gender, Rank [30]
##    College Gender  Rank Degree mean_H.id sd_H.id v_H.id min_H.id max_H.id count
##    <fct>   <fct>  <int> <fct>      <dbl>   <dbl>  <dbl>    <int>    <int> <int>
##  1 ENG     F          1 D           34     10.4   108         28       46     3
##  2 ENG     M          1 D           24.4   11.0   121.         6       54    28
##  3 ENG     M          1 O           24.2   13.9   192.         3       92    76
##  4 SCI     M          1 D           21     16.1   258          6       39     4
##  5 ENG     F          1 O           19.5    9.71   94.3       10       32     4
##  6 SCI     M          1 O           18.8   15.2   231.         3       58    24
##  7 SCI     F          1 O           18.2   14.4   206.         3       34     5
##  8 ENG     M          2 D           17.3    6.81   46.4       10       40    20
##  9 MNG     M          1 D           16      6.48   42          8       27     6
## 10 MNG     F          1 O           15.2    8.54   72.9        8       27     4
## # … with 43 more rows

2.1 H.id平均數最高和H.id平均數最低的群組特質為何?

Ans:H.id平均數最高的群組特質為工學院、女性、教職等級為教授且學歷為本國籍大學畢業的博士。 H.id平均數最低的群組為皆為文學院的老師,且H.id平均數近乎為0。此群組中有: (1)男性且教職等級為助理教授,學歷為本國籍大學畢業的博士 (2)男性且教職等級為教授,學歷為本國籍大學畢業的博士 (3)女性且教職等級為助理教授,學歷為本國籍大學畢業的博士 (4)女性且教職等級為副教授,學歷為本國籍大學畢業的博士

2.2 工學院男教授的平均學術產能不及工學院女教授。 此論述是否恰當,就學院之教授人數提出你的看法。

Ans:此論述並不恰當。 因為從數據中我們可以看出雖然工學院本國籍畢業的女性教授的H.id平均數比工學院本國籍畢業的男性教授的H.id平均數來的高。但是從數據中,我們卻也可以看到在此兩組中,女性教授的人數明顯比男性教授人數來的少。且如果我們從工學院本國籍畢業的女性教授的H.id的最大值去比較的話,其實男性教授組別的最大值是比女性教授組別來的高的。且同時我們還可以看到其實男性教授組別的變異數與標準差是比女性教授組別來的大,這就表示男性教授組別中的個體差異相較於女性教授組別的個體差異來的大。 因此,如果我們將此兩組中的男性教授與女性教授的H.id值單獨拿出來比較的話,其實男性教授的學術產能不見得都會低於女性教授的學術產能。

2.3 針對文學院教授的學術產能提出至少一項論述,並說明你的理由。

Ans: (1)文學院的學術產能相較其他學院的學術產能來的低。 理由:由上面的code所跑出來的結果來看,我們可以發現論文引用指數最低的八組皆為文學院的老師們。

(2)文學院的老師們其專業相關的產出也許並不著重於論文,抑或是整個文學界並不是那麼的重視論文引用數。 理由:資料中顯示文學院的老師們,不管位於何種教職階級、性別,或是是否為海外畢業的博士,其群組中,皆有論文引用指數為0的資料存在。但是如果要升上教授的話,其學術相關產能應有一定量的成就,因此我做出這個推論。

Assessment 4

關於這個作業我發現了兩種做法
第一種:

cdta <- dta %>%
  select(Gender, Degree, Rank, College) 
cdta %>% tbl_summary(by = College,
 statistic = list(all_categorical() ~ "{n} ({p}%)"))
## Warning: The `fmt_missing()` function is deprecated and will soon be removed
## * Use the `sub_missing()` function instead
Characteristic ENG, N = 1841 LIB, N = 631 MNG, N = 841 SCI, N = 721 SSC, N = 571
Gender
F 17 (9.2%) 34 (54%) 24 (29%) 14 (19%) 22 (39%)
M 167 (91%) 29 (46%) 60 (71%) 58 (81%) 35 (61%)
Degree
D 63 (34%) 21 (33%) 25 (30%) 16 (22%) 13 (23%)
O 121 (66%) 42 (67%) 59 (70%) 56 (78%) 44 (77%)
Rank
1 111 (60%) 29 (46%) 36 (43%) 36 (50%) 28 (49%)
2 44 (24%) 29 (46%) 27 (32%) 27 (38%) 22 (39%)
3 29 (16%) 5 (7.9%) 21 (25%) 9 (12%) 7 (12%)
1 n (%)

第二種:

dta %>%
  select(College, Gender, Degree, Rank) %>% 
  tbl_summary(by = College)
## Warning: The `fmt_missing()` function is deprecated and will soon be removed
## * Use the `sub_missing()` function instead
Characteristic ENG, N = 1841 LIB, N = 631 MNG, N = 841 SCI, N = 721 SSC, N = 571
Gender
F 17 (9.2%) 34 (54%) 24 (29%) 14 (19%) 22 (39%)
M 167 (91%) 29 (46%) 60 (71%) 58 (81%) 35 (61%)
Degree
D 63 (34%) 21 (33%) 25 (30%) 16 (22%) 13 (23%)
O 121 (66%) 42 (67%) 59 (70%) 56 (78%) 44 (77%)
Rank
1 111 (60%) 29 (46%) 36 (43%) 36 (50%) 28 (49%)
2 44 (24%) 29 (46%) 27 (32%) 27 (38%) 22 (39%)
3 29 (16%) 5 (7.9%) 21 (25%) 9 (12%) 7 (12%)
1 n (%)

題目:根據結果,寫出三個結論。

(1)工學院的男性教職人員比女性多出很多,男女比為91:9.2。

(2)在此資料中的每個學院內,以教職等級做比較會發現,教授人數於各學院中的佔比均為最多,且助理教授於各學院中的佔比均為最少。

(3)在此資料中的每個學院內,以是否為本土博士畢業生的比例做比較會發現,在各學院中均出現國外大學畢業的教職員佔比較多的情況。