- Name : yun-chieh Liang
- Gender : female
- Birth of date : 1991/04/15
- Phone number : 0918722277
- E-mail : bongee013@yahoo.com.tw/liangyunchieh@gmail.com
2017年4月12日
Institute of Epidemiology and Preventive Medicine
Mathematics
由於論文是比較十二種方法探討罕見變異與疾病之間的相關,選擇方法的優劣需進行模擬,模擬的第一步為生成資料。此生成資料是利用R-code中,while、sample、if、function、for迴圈所撰寫出來。而我需要收集資料形態為小孩有病的家庭(病例組),若小孩沒病期雙清沒病則視為另一組資料型態(對照組)。以至於在生成資料過程中,須先判定小孩是否有病,此時必須利用判斷式給予判斷,例如: if ( 小孩有病且父母沒病){納入病例組}else{if(父親沒病){收入對照組}if(母親沒病){收入對照組}}。直到收滿多少組樣本後,利用while指令跳出。
在遇到一個案會有多個時間點所測量的資料(假若為連續型資料),使得原本得以用簡單線性模型的問題無法進行分析(因為其假設在資料皆獨立的情況下)。那在此我們可以利用GEE (Generalized Estimating Equation) 以及mixed model 或是更推廣的GLMM (Generalized linear mixed models) 的方式進行處理,GEE是利用估計殘差項之共變異數的部分來考慮每個人之不同時間的相關性,為population-averaged model,而GLMM的方式則是可以額外加入隨機效應,隨機效應的意義表示其背後會分配一個分布,藉由此分布之共變異數考慮重測之問題。
對於分析一筆巨大的資料下,往往不可避免的會遇到數具收集不完全或是數具收集不到的情況,換句話說及是具有遺失值。處理的方式有很多種,早期是直接把資料刪掉,利用剩餘完整的資料做分析。倘若資料有限,這樣丟棄會使得資料不具代表性,以至推估有誤。而在此我們使用多重插補法(multiple imputation)可以說是以模型基礎法來插補的延伸,是屬於利用迴歸模式進行插補的一種方法,由於該方式是從預測值的合理分配中隨機抽取數個數值進行插補。