2017年4月12日

INTRODUCTION

EDUCATION

  • MASTER DEGREE

    National Taiwan University

    Institute of Epidemiology and Preventive Medicine

  • BACHELOR

    Soochow University

    Mathematics

SKILLS

  • R language
  • SAS language

EXPERIENCE

What I learned in NTU

The difficulties I had during my Master's program

  1. 需要自行摸索統計軟體並訓練撰寫程式碼的能力 - 碩士相關論文之研究是相關於如何找尋變異與疾病間的相關,必須利用統計軟體進行模擬
  2. 進行資料分析時,解決重複測量的問題 - 對於分析實際資料會遇到的狀況很多,其中之一事考慮如何處理重複資料的資料
  3. 進行資料分析時,處理遺失值問題 - 對於分析實際資料會遇到有遺失值的可能性很高,要如何處理這種資料。

How do I slove the difficulties

For difficulte 1

由於論文是比較十二種方法探討罕見變異與疾病之間的相關,選擇方法的優劣需進行模擬,模擬的第一步為生成資料。此生成資料是利用R-code中,while、sample、if、function、for迴圈所撰寫出來。而我需要收集資料形態為小孩有病的家庭(病例組),若小孩沒病期雙清沒病則視為另一組資料型態(對照組)。以至於在生成資料過程中,須先判定小孩是否有病,此時必須利用判斷式給予判斷,例如: if ( 小孩有病且父母沒病){納入病例組}else{if(父親沒病){收入對照組}if(母親沒病){收入對照組}}。直到收滿多少組樣本後,利用while指令跳出。

check code

For difficulte 2

在遇到一個案會有多個時間點所測量的資料(假若為連續型資料),使得原本得以用簡單線性模型的問題無法進行分析(因為其假設在資料皆獨立的情況下)。那在此我們可以利用GEE (Generalized Estimating Equation) 以及mixed model 或是更推廣的GLMM (Generalized linear mixed models) 的方式進行處理,GEE是利用估計殘差項之共變異數的部分來考慮每個人之不同時間的相關性,為population-averaged model,而GLMM的方式則是可以額外加入隨機效應,隨機效應的意義表示其背後會分配一個分布,藉由此分布之共變異數考慮重測之問題。

check code

For difficulte 3

對於分析一筆巨大的資料下,往往不可避免的會遇到數具收集不完全或是數具收集不到的情況,換句話說及是具有遺失值。處理的方式有很多種,早期是直接把資料刪掉,利用剩餘完整的資料做分析。倘若資料有限,這樣丟棄會使得資料不具代表性,以至推估有誤。而在此我們使用多重插補法(multiple imputation)可以說是以模型基礎法來插補的延伸,是屬於利用迴歸模式進行插補的一種方法,由於該方式是從預測值的合理分配中隨機抽取數個數值進行插補。

check code

Solving the aftermath

  1. 在學習程式語言的過程中,不僅使我思考方式更加嚴謹,也使我處理事情更加細心。同時,在過程中與一同學習軟體的夥伴們相互切磋式建非常棒的事,總是會得到意想不到的結果。
  2. 在遇到許多不同的資料形態時(如類別、連續、相依、獨立),可使用對於資料最合適、正確的統計方法,讓分析結果更具有正確性,才可找到更加具有預測能力的模型。
  3. 當然在統計這條路上所遇到的困難並不僅僅上述,但我相信堅持下去,努力找到合理的解決方法,不斷累積經驗,在這條統計分析的旅程上一定能再突破自我。

THANK YOU FOR YOUR READING!!