Introduction and Research Question

Diabetes describes a group of metabolic diseases in which a person has high blood sugar due to problems processing or producing insulin. Diabetes can affect anyone, regardless of age, race, gender, or lifestyle. For this assignment, I used the “Pima Indians Diabetes” data set from Kaggle. A population of women who were at least 21 years old, of Pima Indian heritage and living near Phoenix, Arizona, was tested for diabetes according to World Health Organization criteria. This data set is originally from the National Institute of Diabetes and Digestive and Kidney Diseases. The objective of the data set is to diagnostically predict whether or not a patient has diabetes, based on certain diagnostic measurements included in the data set. The data sets consists of several medical predictor variables and one target variable, “Outcome”. The “Outcome” variable is binary, 0 indicating the woman does not have diabetes and 1 indicating diabetes is present. Predictor variables includes the number of pregnancies the patient has had, their BMI, insulin level, age, and so on. I used a logistic model to demonstrate which factors influence diabetes by using listwise deletion and then using multiple imputations to compare how both methods handle missing values.

Variables

This data set contains 768 observations and 9 variables with missing values. (0 indicates missing values)

Pregnancies: number of pregnancies.

Glucose: plasma glucose concentration in an oral glucose tolerance test

BloodPressure: diastolic blood pressure (mm Hg).

SkinThickness: triceps skin fold thickness (mm).

Insulin: insulin level

BMI: body mass index (weight in kg/(height in m)^2)

DiabetesPedigreeFunction: diabetes pedigree function.

Age: age in years.

Outcome: 0 indicates diabetes not present and 1 indicates diabetes present.

Importing and loading the data

library(readr)
diabetes<-read_csv("C:\\users\\Sangita Roy\\Desktop\\diabetes.csv")
head(diabetes)

summary(diabetes)

  Pregnancies        Glucose      BloodPressure    SkinThickness  
 Min.   : 0.000   Min.   :  0.0   Min.   :  0.00   Min.   : 0.00  
 1st Qu.: 1.000   1st Qu.: 99.0   1st Qu.: 62.00   1st Qu.: 0.00  
 Median : 3.000   Median :117.0   Median : 72.00   Median :23.00  
 Mean   : 3.845   Mean   :120.9   Mean   : 69.11   Mean   :20.54  
 3rd Qu.: 6.000   3rd Qu.:140.2   3rd Qu.: 80.00   3rd Qu.:32.00  
 Max.   :17.000   Max.   :199.0   Max.   :122.00   Max.   :99.00  
    Insulin           BMI        DiabetesPedigreeFunction      Age       
 Min.   :  0.0   Min.   : 0.00   Min.   :0.0780           Min.   :21.00  
 1st Qu.:  0.0   1st Qu.:27.30   1st Qu.:0.2437           1st Qu.:24.00  
 Median : 30.5   Median :32.00   Median :0.3725           Median :29.00  
 Mean   : 79.8   Mean   :31.99   Mean   :0.4719           Mean   :33.24  
 3rd Qu.:127.2   3rd Qu.:36.60   3rd Qu.:0.6262           3rd Qu.:41.00  
 Max.   :846.0   Max.   :67.10   Max.   :2.4200           Max.   :81.00  
    Outcome     
 Min.   :0.000  
 1st Qu.:0.000  
 Median :0.000  
 Mean   :0.349  
 3rd Qu.:1.000  
 Max.   :1.000

Cleaning up the dataset

library(dplyr)
diabetes2<-mutate(diabetes,Age= ifelse(Age==0, NA, Age),
                    BMI= ifelse (BMI==0, NA,BMI),
                    BloodPressure= ifelse (BloodPressure==0, NA,BloodPressure),
                    SkinThickness= ifelse (SkinThickness==0, NA,SkinThickness),
                    Glucose= ifelse (Glucose==0, NA,Glucose))
                    
head(diabetes2)

This data set includes “0” to indicate missing values. I changed the missing values to NA to differentiate which are missing values from what the women reported as a value of “0” to indicate none. It is impossible for the following variables: Age, BMI, BloodPressure, SkinThickness, and Glucose to have a value of “0”. The new data set contains missing values with “NA”."

data(diabetes2)
dim(diabetes2)

[1] 768   9

Estimating the model with listwise deletion

diabetes3<-na.omit(diabetes2)
dim(diabetes3)

[1] 532   9

All missing values with “NA” have been deleted from the data set, and the new data set now contains 532 observations.

library(Zelig)
library(texreg)
z_dia <- zlogit$new()
z_dia$zelig(as.factor(Outcome) ~ Pregnancies+Glucose+BMI+Age,model="logit", data = diabetes3)

Argument model is only valid for the Zelig wrapper, but not the Zelig method, and will be ignored.

summary(z_dia)

Model:

Call: z_dia$zelig(formula = as.factor(Outcome) ~ Pregnancies + Glucose + BMI + Age, data = diabetes3)

Deviance Residuals: Min 1Q Median 3Q Max
-2.2025 -0.6618 -0.3879 0.6701 2.4160

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -9.338825 0.871605 -10.715 < 2e-16 Pregnancies 0.113733 0.042581 2.671 0.00756 Glucose 0.035152 0.004098 8.579 < 2e-16 BMI 0.087309 0.017840 4.894 9.88e-07 Age 0.026389 0.013113 2.012 0.04417

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 676.79  on 531  degrees of freedom

Residual deviance: 481.12 on 527 degrees of freedom AIC: 491.12

Number of Fisher Scoring iterations: 5

Next step: Use ‘setx’ method

htmlreg(z_dia)

Statistical models
	Model 1
(Intercept)	-9.34^***
	(0.87)
Pregnancies	0.11^**
	(0.04)
Glucose	0.04^***
	(0.00)
BMI	0.09^***
	(0.02)
Age	0.03^*
	(0.01)
AIC	491.12
BIC	512.50
Log Likelihood	-240.56
Deviance	481.12
Num. obs.	532
p < 0.001, p < 0.01, p < 0.05

This the best fit model which includes pregnancy, glucose, BMI, and Age to show the relationship between these variables and the presence of diabetes in women. Initially, I started with a simple model that consisted of pregnancy, glucose, and BMI and then gradually added more variables to the model. Based on the lowest AIC and BIC values, and results having the most significance, this is the best fit model. The coefficient for the intercept represents an ideal woman who has had no pregnancies, glucose level 0f 0, BMI of 0, and is of age 0. The ideal woman does not exist since those variables cannot be 0, however, the log odds ratio of such a woman having diabetes decreases by -9.34. As women have more pregnancies, the log odds ratio of having diabetes increases by 0.11. For each unit increase in glucose, the log odds ratio for women having diabetes increases by 0.04. For each unit increase of BMI, the log odds ratio of having diabetes increases by 0.09. Lastly, as women get older, their log odds ratio of having diabetes increases by 0.03. All results are significant (p<.05).

Estimating the model with multiple imputations

library(Amelia)
data(diabetes2)
a.out <- amelia(diabetes2, m = 20)

-- Imputation 1 --

  1  2  3  4  5

-- Imputation 2 --

  1  2  3  4  5

-- Imputation 3 --

  1  2  3  4  5

-- Imputation 4 --

  1  2  3  4  5  6

-- Imputation 5 --

  1  2  3  4  5

-- Imputation 6 --

  1  2  3  4  5  6

-- Imputation 7 --

  1  2  3  4

-- Imputation 8 --

  1  2  3  4  5  6

-- Imputation 9 --

  1  2  3  4  5  6  7

-- Imputation 10 --

  1  2  3  4  5  6  7  8  9 10

-- Imputation 11 --

  1  2  3  4  5  6

-- Imputation 12 --

  1  2  3  4  5  6

-- Imputation 13 --

  1  2  3  4  5  6  7

-- Imputation 14 --

  1  2  3  4  5  6

-- Imputation 15 --

  1  2  3  4  5

-- Imputation 16 --

  1  2  3  4  5

-- Imputation 17 --

  1  2  3  4  5  6  7

-- Imputation 18 --

  1  2  3  4

-- Imputation 19 --

  1  2  3  4  5

-- Imputation 20 --

  1  2  3  4  5

z.out <- zelig(as.factor(Outcome) ~ Pregnancies + Glucose + BMI + Age, model = "logit", data = a.out, cite = FALSE)
summary(z.out)

Model: Combined Imputations 

            Estimate Std.Error z value Pr(>|z|)
(Intercept) -9.13156   0.71560  -12.76  < 2e-16
Pregnancies  0.11614   0.03177    3.66  0.00026
Glucose      0.03630   0.00352   10.31  < 2e-16
BMI          0.09334   0.01466    6.37  1.9e-10
Age          0.01146   0.00913    1.25  0.20951

For results from individual imputed datasets, use summary(x, subset = i:j)
Next step: Use 'setx' method

Multiple imputation models is used to approximate missing values instead of deleting from the original data set which listwise deletion does. There are 20 imputations which predicts the missing values. The table above shows the average multiple coefficients. There is not a major difference in terms of the coefficients between listwise deletion and the multiple imputations method for handling missing values. However, Age is no longer significant in the combined imputations models (p<.05). The combined imputations model demonstrates the log odds ratio of a woman with no pregnancies, glucose, BMI, and 0 years of age having diabetes decreases by -9.13. As the number of pregnancies of women increases, the log odds ratio of having diabetes increases by 0.11. For each unit of glucose increase, the log odds ratio of having diabetes increases by 0.04. For each unit increase of BMI, the log odds ratio of having diabetes increases by 0.09. Lastly, as women get older, the log odds ratio of having diabetes is 0.01. The differences in coefficients between both methods is seen in the intercept and age in which it decreased from the listwise deletion.

First Imputation Model

summary(z.out, subset = 1)

Imputed Dataset 1
Call:
z5$zelig(formula = as.factor(Outcome) ~ Pregnancies + Glucose + 
    BMI + Age, data = a.out)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.2892  -0.7099  -0.4027   0.7285   2.3801  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.142608   0.715957 -12.770  < 2e-16
Pregnancies  0.116164   0.031782   3.655 0.000257
Glucose      0.036571   0.003515  10.403  < 2e-16
BMI          0.092460   0.014616   6.326 2.52e-10
Age          0.011678   0.009121   1.280 0.200459

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 993.48  on 767  degrees of freedom
Residual deviance: 721.81  on 763  degrees of freedom
AIC: 731.81

Number of Fisher Scoring iterations: 5

Next step: Use 'setx' method

This shows the first imputation of the missing values from the diabetes data set that has been predicted. The AIC value has increased from 491 using the listwise deletion to 730 of the first imputation.

Second Imputation Model

summary(z.out, subset = 2)

Imputed Dataset 2
Call:
z5$zelig(formula = as.factor(Outcome) ~ Pregnancies + Glucose + 
    BMI + Age, data = a.out)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.2839  -0.7087  -0.4038   0.7298   2.3755  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.143771   0.713697 -12.812  < 2e-16
Pregnancies  0.117480   0.031812   3.693 0.000222
Glucose      0.036265   0.003509  10.335  < 2e-16
BMI          0.094059   0.014603   6.441 1.19e-10
Age          0.011030   0.009112   1.211 0.226066

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 993.48  on 767  degrees of freedom
Residual deviance: 722.31  on 763  degrees of freedom
AIC: 732.31

Number of Fisher Scoring iterations: 5

Next step: Use 'setx' method

This shows the second imputation of the missing values that the model has predicted.

Simulation of the combined imputations model

z.out$setx()
z.out$sim()
plot(z.out)

Comparison

There was not a major difference in terms of the coefficients between the listwise deletion and multiple imputations. However, the age variable was no longer significant in the combined imputations model. I found this to be quite interesting because I predicted initially that as the age of women increased, the log odds ratio of having diabetes would also increase and be significant. The multiple imputations methods to handle missing values is a better approach because the model predicts the missing values. Although the missing values will never be known, the guesses may be closer to the true value that is missing than others. The multiple imputations method gives a list of equally good guesses. The results from the complete-case data with different imputed values are not identical, but are similar.

Source

Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S. (1988). Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In Proceedings of the Symposium on Computer Applications and Medical Care (pp. 261–265). IEEE Computer Society Press.

Ripley, B.D. (1996) Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press.

LS0tDQp0aXRsZTogIiMqKk1pc3NpbmcgRGF0YSBhbmQgTXVsdGlwbGUgSW1wdXRhdGlvbioqIg0KYXV0aG9yOiAiU2FuZ2l0YSBSb3kiDQpkYXRlOiAiQXByaWwgMjksIDIwMTgiDQpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sNCi0tLQ0KDQojIyMqKkludHJvZHVjdGlvbiBhbmQgUmVzZWFyY2ggUXVlc3Rpb24qKg0KRGlhYmV0ZXMgZGVzY3JpYmVzIGEgZ3JvdXAgb2YgbWV0YWJvbGljIGRpc2Vhc2VzIGluIHdoaWNoIGEgcGVyc29uIGhhcyBoaWdoIGJsb29kIHN1Z2FyIGR1ZSB0byBwcm9ibGVtcyBwcm9jZXNzaW5nIG9yIHByb2R1Y2luZyBpbnN1bGluLiBEaWFiZXRlcyBjYW4gYWZmZWN0IGFueW9uZSwgcmVnYXJkbGVzcyBvZiBhZ2UsIHJhY2UsIGdlbmRlciwgb3IgbGlmZXN0eWxlLiBGb3IgdGhpcyBhc3NpZ25tZW50LCBJIHVzZWQgdGhlICJQaW1hIEluZGlhbnMgRGlhYmV0ZXMiIGRhdGEgc2V0IGZyb20gS2FnZ2xlLiBBIHBvcHVsYXRpb24gb2Ygd29tZW4gd2hvIHdlcmUgYXQgbGVhc3QgMjEgeWVhcnMgb2xkLCBvZiBQaW1hIEluZGlhbiBoZXJpdGFnZSBhbmQgbGl2aW5nIG5lYXIgUGhvZW5peCwgQXJpem9uYSwgd2FzIHRlc3RlZCBmb3IgZGlhYmV0ZXMgYWNjb3JkaW5nIHRvIFdvcmxkIEhlYWx0aCBPcmdhbml6YXRpb24gY3JpdGVyaWEuIFRoaXMgZGF0YSBzZXQgaXMgb3JpZ2luYWxseSBmcm9tIHRoZSBOYXRpb25hbCBJbnN0aXR1dGUgb2YgRGlhYmV0ZXMgYW5kIERpZ2VzdGl2ZSBhbmQgS2lkbmV5IERpc2Vhc2VzLiBUaGUgb2JqZWN0aXZlIG9mIHRoZSBkYXRhIHNldCBpcyB0byBkaWFnbm9zdGljYWxseSBwcmVkaWN0IHdoZXRoZXIgb3Igbm90IGEgcGF0aWVudCBoYXMgZGlhYmV0ZXMsIGJhc2VkIG9uIGNlcnRhaW4gZGlhZ25vc3RpYyBtZWFzdXJlbWVudHMgaW5jbHVkZWQgaW4gdGhlIGRhdGEgc2V0LiBUaGUgZGF0YSBzZXRzIGNvbnNpc3RzIG9mIHNldmVyYWwgbWVkaWNhbCBwcmVkaWN0b3IgdmFyaWFibGVzIGFuZCBvbmUgdGFyZ2V0IHZhcmlhYmxlLCAiT3V0Y29tZSIuIFRoZSAiT3V0Y29tZSIgdmFyaWFibGUgaXMgYmluYXJ5LCAwIGluZGljYXRpbmcgdGhlIHdvbWFuIGRvZXMgbm90IGhhdmUgZGlhYmV0ZXMgYW5kIDEgaW5kaWNhdGluZyBkaWFiZXRlcyBpcyBwcmVzZW50LiBQcmVkaWN0b3IgdmFyaWFibGVzIGluY2x1ZGVzIHRoZSBudW1iZXIgb2YgcHJlZ25hbmNpZXMgdGhlIHBhdGllbnQgaGFzIGhhZCwgdGhlaXIgQk1JLCBpbnN1bGluIGxldmVsLCBhZ2UsIGFuZCBzbyBvbi4gSSB1c2VkIGEgbG9naXN0aWMgbW9kZWwgdG8gZGVtb25zdHJhdGUgd2hpY2ggZmFjdG9ycyBpbmZsdWVuY2UgZGlhYmV0ZXMgYnkgdXNpbmcgbGlzdHdpc2UgZGVsZXRpb24gYW5kIHRoZW4gdXNpbmcgbXVsdGlwbGUgaW1wdXRhdGlvbnMgdG8gY29tcGFyZSBob3cgYm90aCBtZXRob2RzIGhhbmRsZSBtaXNzaW5nIHZhbHVlcy4NCg0KIyMjVmFyaWFibGVzIA0KVGhpcyBkYXRhIHNldCBjb250YWlucyA3Njggb2JzZXJ2YXRpb25zIGFuZCA5IHZhcmlhYmxlcyB3aXRoIG1pc3NpbmcgdmFsdWVzLiAoMCBpbmRpY2F0ZXMgbWlzc2luZyB2YWx1ZXMpDQoNCioqUHJlZ25hbmNpZXMqKjogbnVtYmVyIG9mIHByZWduYW5jaWVzLg0KDQoqKkdsdWNvc2UqKjogcGxhc21hIGdsdWNvc2UgY29uY2VudHJhdGlvbiBpbiBhbiBvcmFsIGdsdWNvc2UgdG9sZXJhbmNlIHRlc3QNCg0KKipCbG9vZFByZXNzdXJlKio6IGRpYXN0b2xpYyBibG9vZCBwcmVzc3VyZSAobW0gSGcpLg0KDQoqKlNraW5UaGlja25lc3MqKjogdHJpY2VwcyBza2luIGZvbGQgdGhpY2tuZXNzIChtbSkuDQoNCioqSW5zdWxpbioqOiBpbnN1bGluIGxldmVsDQoNCioqQk1JKio6IGJvZHkgbWFzcyBpbmRleCAod2VpZ2h0IGluIGtnLyhoZWlnaHQgaW4gbSlcXjIpDQoNCioqRGlhYmV0ZXNQZWRpZ3JlZUZ1bmN0aW9uKio6IGRpYWJldGVzIHBlZGlncmVlIGZ1bmN0aW9uLg0KDQoqKkFnZSoqOiBhZ2UgaW4geWVhcnMuDQoNCioqT3V0Y29tZSoqOiAwIGluZGljYXRlcyBkaWFiZXRlcyBub3QgcHJlc2VudCBhbmQgMSBpbmRpY2F0ZXMgZGlhYmV0ZXMgcHJlc2VudC4NCg0KDQojIyNJbXBvcnRpbmcgYW5kIGxvYWRpbmcgdGhlIGRhdGENCmBgYHtyIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9DQpsaWJyYXJ5KHJlYWRyKQ0KDQpkaWFiZXRlczwtcmVhZF9jc3YoIkM6XFx1c2Vyc1xcU2FuZ2l0YSBSb3lcXERlc2t0b3BcXGRpYWJldGVzLmNzdiIpDQpoZWFkKGRpYWJldGVzKQ0KDQpgYGANCg0KYGBge3J9DQpzdW1tYXJ5KGRpYWJldGVzKQ0KYGBgDQoNCiMjI0NsZWFuaW5nIHVwIHRoZSBkYXRhc2V0DQpgYGB7ciBtZXNzYWdlPUZBTFNFLCB3YXJuaW5nPUZBTFNFfQ0KbGlicmFyeShkcGx5cikNCmRpYWJldGVzMjwtbXV0YXRlKGRpYWJldGVzLEFnZT0gaWZlbHNlKEFnZT09MCwgTkEsIEFnZSksDQogICAgICAgICAgICAgICAgICAgIEJNST0gaWZlbHNlIChCTUk9PTAsIE5BLEJNSSksDQogICAgICAgICAgICAgICAgICAgIEJsb29kUHJlc3N1cmU9IGlmZWxzZSAoQmxvb2RQcmVzc3VyZT09MCwgTkEsQmxvb2RQcmVzc3VyZSksDQogICAgICAgICAgICAgICAgICAgIFNraW5UaGlja25lc3M9IGlmZWxzZSAoU2tpblRoaWNrbmVzcz09MCwgTkEsU2tpblRoaWNrbmVzcyksDQogICAgICAgICAgICAgICAgICAgIEdsdWNvc2U9IGlmZWxzZSAoR2x1Y29zZT09MCwgTkEsR2x1Y29zZSkpDQogICAgICAgICAgICAgICAgICAgIA0KaGVhZChkaWFiZXRlczIpDQpgYGANClRoaXMgZGF0YSBzZXQgaW5jbHVkZXMgIjAiIHRvIGluZGljYXRlIG1pc3NpbmcgdmFsdWVzLiBJIGNoYW5nZWQgdGhlIG1pc3NpbmcgdmFsdWVzIHRvIE5BIHRvIGRpZmZlcmVudGlhdGUgd2hpY2ggYXJlIG1pc3NpbmcgdmFsdWVzIGZyb20gd2hhdCB0aGUgd29tZW4gcmVwb3J0ZWQgYXMgYSB2YWx1ZSBvZiAiMCIgdG8gaW5kaWNhdGUgbm9uZS4gSXQgaXMgaW1wb3NzaWJsZSBmb3IgdGhlIGZvbGxvd2luZyB2YXJpYWJsZXM6IEFnZSwgQk1JLCBCbG9vZFByZXNzdXJlLCBTa2luVGhpY2tuZXNzLCBhbmQgR2x1Y29zZSB0byBoYXZlIGEgdmFsdWUgb2YgIjAiLiBUaGUgbmV3IGRhdGEgc2V0IGNvbnRhaW5zIG1pc3NpbmcgdmFsdWVzIHdpdGggIk5BIi4iDQoNCmBgYHtyIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9DQpkYXRhKGRpYWJldGVzMikNCmRpbShkaWFiZXRlczIpDQpgYGANCg0KIyMjRXN0aW1hdGluZyB0aGUgbW9kZWwgd2l0aCBsaXN0d2lzZSBkZWxldGlvbiANCmBgYHtyfQ0KZGlhYmV0ZXMzPC1uYS5vbWl0KGRpYWJldGVzMikNCmRpbShkaWFiZXRlczMpDQpgYGANCkFsbCBtaXNzaW5nIHZhbHVlcyB3aXRoICJOQSIgaGF2ZSBiZWVuIGRlbGV0ZWQgZnJvbSB0aGUgZGF0YSBzZXQsIGFuZCB0aGUgbmV3IGRhdGEgc2V0IG5vdyBjb250YWlucyA1MzIgb2JzZXJ2YXRpb25zLg0KDQpgYGB7ciBtZXNzYWdlPUZBTFNFLCB3YXJuaW5nPUZBTFNFLCByZXN1bHRzPSdhc2lzJ30NCmxpYnJhcnkoWmVsaWcpDQpsaWJyYXJ5KHRleHJlZykNCnpfZGlhIDwtIHpsb2dpdCRuZXcoKQ0Kel9kaWEkemVsaWcoYXMuZmFjdG9yKE91dGNvbWUpIH4gUHJlZ25hbmNpZXMrR2x1Y29zZStCTUkrQWdlLG1vZGVsPSJsb2dpdCIsIGRhdGEgPSBkaWFiZXRlczMpDQpzdW1tYXJ5KHpfZGlhKQ0KDQpodG1scmVnKHpfZGlhKQ0KYGBgDQpUaGlzIHRoZSBiZXN0IGZpdCBtb2RlbCB3aGljaCBpbmNsdWRlcyBwcmVnbmFuY3ksIGdsdWNvc2UsIEJNSSwgYW5kIEFnZSB0byBzaG93IHRoZSByZWxhdGlvbnNoaXAgYmV0d2VlbiB0aGVzZSB2YXJpYWJsZXMgYW5kIHRoZSBwcmVzZW5jZSBvZiBkaWFiZXRlcyBpbiB3b21lbi4gSW5pdGlhbGx5LCBJIHN0YXJ0ZWQgd2l0aCBhIHNpbXBsZSBtb2RlbCB0aGF0IGNvbnNpc3RlZCBvZiBwcmVnbmFuY3ksIGdsdWNvc2UsIGFuZCBCTUkgYW5kIHRoZW4gZ3JhZHVhbGx5IGFkZGVkIG1vcmUgdmFyaWFibGVzIHRvIHRoZSBtb2RlbC4gQmFzZWQgb24gdGhlIGxvd2VzdCBBSUMgYW5kIEJJQyB2YWx1ZXMsIGFuZCByZXN1bHRzIGhhdmluZyB0aGUgbW9zdCBzaWduaWZpY2FuY2UsIHRoaXMgaXMgdGhlIGJlc3QgZml0IG1vZGVsLiBUaGUgY29lZmZpY2llbnQgZm9yIHRoZSBpbnRlcmNlcHQgcmVwcmVzZW50cyBhbiBpZGVhbCB3b21hbiB3aG8gaGFzIGhhZCBubyBwcmVnbmFuY2llcywgZ2x1Y29zZSBsZXZlbCAwZiAwLCBCTUkgb2YgMCwgYW5kIGlzIG9mIGFnZSAwLiBUaGUgaWRlYWwgd29tYW4gZG9lcyBub3QgZXhpc3Qgc2luY2UgdGhvc2UgdmFyaWFibGVzIGNhbm5vdCBiZSAwLCBob3dldmVyLCB0aGUgbG9nIG9kZHMgcmF0aW8gb2Ygc3VjaCBhIHdvbWFuIGhhdmluZyBkaWFiZXRlcyBkZWNyZWFzZXMgYnkgLTkuMzQuIEFzIHdvbWVuIGhhdmUgbW9yZSBwcmVnbmFuY2llcywgdGhlIGxvZyBvZGRzIHJhdGlvIG9mIGhhdmluZyBkaWFiZXRlcyBpbmNyZWFzZXMgYnkgMC4xMS4gRm9yIGVhY2ggdW5pdCBpbmNyZWFzZSBpbiBnbHVjb3NlLCB0aGUgbG9nIG9kZHMgcmF0aW8gZm9yIHdvbWVuIGhhdmluZyBkaWFiZXRlcyBpbmNyZWFzZXMgYnkgMC4wNC4gRm9yIGVhY2ggdW5pdCBpbmNyZWFzZSBvZiBCTUksIHRoZSBsb2cgb2RkcyByYXRpbyBvZiBoYXZpbmcgZGlhYmV0ZXMgaW5jcmVhc2VzIGJ5IDAuMDkuIExhc3RseSwgYXMgd29tZW4gZ2V0IG9sZGVyLCB0aGVpciBsb2cgb2RkcyByYXRpbyBvZiBoYXZpbmcgZGlhYmV0ZXMgaW5jcmVhc2VzIGJ5IDAuMDMuIEFsbCByZXN1bHRzIGFyZSBzaWduaWZpY2FudCAocDwuMDUpLg0KDQoNCiMjI0VzdGltYXRpbmcgdGhlIG1vZGVsIHdpdGggbXVsdGlwbGUgaW1wdXRhdGlvbnMNCmBgYHtyIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9DQpsaWJyYXJ5KEFtZWxpYSkNCmRhdGEoZGlhYmV0ZXMyKQ0KYS5vdXQgPC0gYW1lbGlhKGRpYWJldGVzMiwgbSA9IDIwKQ0Kei5vdXQgPC0gemVsaWcoYXMuZmFjdG9yKE91dGNvbWUpIH4gUHJlZ25hbmNpZXMgKyBHbHVjb3NlICsgQk1JICsgQWdlLCBtb2RlbCA9ICJsb2dpdCIsIGRhdGEgPSBhLm91dCwgY2l0ZSA9IEZBTFNFKQ0Kc3VtbWFyeSh6Lm91dCkNCmBgYA0KTXVsdGlwbGUgaW1wdXRhdGlvbiBtb2RlbHMgaXMgdXNlZCB0byBhcHByb3hpbWF0ZSBtaXNzaW5nIHZhbHVlcyBpbnN0ZWFkIG9mIGRlbGV0aW5nIGZyb20gdGhlIG9yaWdpbmFsIGRhdGEgc2V0IHdoaWNoIGxpc3R3aXNlIGRlbGV0aW9uIGRvZXMuIFRoZXJlIGFyZSAyMCBpbXB1dGF0aW9ucyB3aGljaCBwcmVkaWN0cyB0aGUgbWlzc2luZyB2YWx1ZXMuIFRoZSB0YWJsZSBhYm92ZSBzaG93cyB0aGUgYXZlcmFnZSBtdWx0aXBsZSBjb2VmZmljaWVudHMuIFRoZXJlIGlzIG5vdCBhIG1ham9yIGRpZmZlcmVuY2UgaW4gdGVybXMgb2YgdGhlIGNvZWZmaWNpZW50cyBiZXR3ZWVuIGxpc3R3aXNlIGRlbGV0aW9uIGFuZCB0aGUgbXVsdGlwbGUgaW1wdXRhdGlvbnMgbWV0aG9kIGZvciBoYW5kbGluZyBtaXNzaW5nIHZhbHVlcy4gSG93ZXZlciwgQWdlIGlzIG5vIGxvbmdlciBzaWduaWZpY2FudCBpbiB0aGUgY29tYmluZWQgaW1wdXRhdGlvbnMgbW9kZWxzIChwPC4wNSkuIFRoZSBjb21iaW5lZCBpbXB1dGF0aW9ucyBtb2RlbCBkZW1vbnN0cmF0ZXMgdGhlIGxvZyBvZGRzIHJhdGlvIG9mIGEgd29tYW4gd2l0aCBubyBwcmVnbmFuY2llcywgZ2x1Y29zZSwgQk1JLCBhbmQgMCB5ZWFycyBvZiBhZ2UgaGF2aW5nIGRpYWJldGVzIGRlY3JlYXNlcyBieSAtOS4xMy4gQXMgdGhlIG51bWJlciBvZiBwcmVnbmFuY2llcyBvZiB3b21lbiBpbmNyZWFzZXMsIHRoZSBsb2cgb2RkcyByYXRpbyBvZiBoYXZpbmcgZGlhYmV0ZXMgaW5jcmVhc2VzIGJ5IDAuMTEuIEZvciBlYWNoIHVuaXQgb2YgZ2x1Y29zZSBpbmNyZWFzZSwgdGhlIGxvZyBvZGRzIHJhdGlvIG9mIGhhdmluZyBkaWFiZXRlcyBpbmNyZWFzZXMgYnkgMC4wNC4gRm9yIGVhY2ggdW5pdCBpbmNyZWFzZSBvZiBCTUksIHRoZSBsb2cgb2RkcyByYXRpbyBvZiBoYXZpbmcgZGlhYmV0ZXMgaW5jcmVhc2VzIGJ5IDAuMDkuIExhc3RseSwgYXMgd29tZW4gZ2V0IG9sZGVyLCB0aGUgbG9nIG9kZHMgcmF0aW8gb2YgaGF2aW5nIGRpYWJldGVzIGlzIDAuMDEuIFRoZSBkaWZmZXJlbmNlcyBpbiBjb2VmZmljaWVudHMgYmV0d2VlbiBib3RoIG1ldGhvZHMgaXMgc2VlbiBpbiB0aGUgaW50ZXJjZXB0IGFuZCBhZ2UgaW4gd2hpY2ggaXQgZGVjcmVhc2VkIGZyb20gdGhlIGxpc3R3aXNlIGRlbGV0aW9uLiANCg0KIyMjRmlyc3QgSW1wdXRhdGlvbiBNb2RlbA0KYGBge3J9DQpzdW1tYXJ5KHoub3V0LCBzdWJzZXQgPSAxKQ0KYGBgDQpUaGlzIHNob3dzIHRoZSBmaXJzdCBpbXB1dGF0aW9uIG9mIHRoZSBtaXNzaW5nIHZhbHVlcyBmcm9tIHRoZSBkaWFiZXRlcyBkYXRhIHNldCB0aGF0IGhhcyBiZWVuIHByZWRpY3RlZC4gVGhlIEFJQyB2YWx1ZSBoYXMgaW5jcmVhc2VkIGZyb20gNDkxIHVzaW5nIHRoZSBsaXN0d2lzZSBkZWxldGlvbiB0byA3MzAgb2YgdGhlIGZpcnN0IGltcHV0YXRpb24uDQoNCiMjI1NlY29uZCBJbXB1dGF0aW9uIE1vZGVsDQpgYGB7cn0NCnN1bW1hcnkoei5vdXQsIHN1YnNldCA9IDIpDQpgYGANClRoaXMgc2hvd3MgdGhlIHNlY29uZCBpbXB1dGF0aW9uIG9mIHRoZSBtaXNzaW5nIHZhbHVlcyB0aGF0IHRoZSBtb2RlbCBoYXMgcHJlZGljdGVkLg0KDQojIyNTaW11bGF0aW9uIG9mIHRoZSBjb21iaW5lZCBpbXB1dGF0aW9ucyBtb2RlbA0KYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRX0NCnoub3V0JHNldHgoKQ0Kei5vdXQkc2ltKCkNCnBsb3Qoei5vdXQpDQpgYGANCg0KIyMjQ29tcGFyaXNvbg0KVGhlcmUgd2FzIG5vdCBhIG1ham9yIGRpZmZlcmVuY2UgaW4gdGVybXMgb2YgdGhlIGNvZWZmaWNpZW50cyBiZXR3ZWVuIHRoZSBsaXN0d2lzZSBkZWxldGlvbiBhbmQgbXVsdGlwbGUgaW1wdXRhdGlvbnMuIEhvd2V2ZXIsIHRoZSBhZ2UgdmFyaWFibGUgd2FzIG5vIGxvbmdlciBzaWduaWZpY2FudCBpbiB0aGUgY29tYmluZWQgaW1wdXRhdGlvbnMgbW9kZWwuIEkgZm91bmQgdGhpcyB0byBiZSBxdWl0ZSBpbnRlcmVzdGluZyBiZWNhdXNlIEkgcHJlZGljdGVkIGluaXRpYWxseSB0aGF0IGFzIHRoZSBhZ2Ugb2Ygd29tZW4gaW5jcmVhc2VkLCB0aGUgbG9nIG9kZHMgcmF0aW8gb2YgaGF2aW5nIGRpYWJldGVzIHdvdWxkIGFsc28gaW5jcmVhc2UgYW5kIGJlIHNpZ25pZmljYW50LiBUaGUgbXVsdGlwbGUgaW1wdXRhdGlvbnMgbWV0aG9kcyB0byBoYW5kbGUgbWlzc2luZyB2YWx1ZXMgaXMgYSBiZXR0ZXIgYXBwcm9hY2ggYmVjYXVzZSB0aGUgbW9kZWwgcHJlZGljdHMgdGhlIG1pc3NpbmcgdmFsdWVzLiBBbHRob3VnaCB0aGUgbWlzc2luZyB2YWx1ZXMgd2lsbCBuZXZlciBiZSBrbm93biwgdGhlIGd1ZXNzZXMgbWF5IGJlIGNsb3NlciB0byB0aGUgdHJ1ZSB2YWx1ZSB0aGF0IGlzIG1pc3NpbmcgdGhhbiBvdGhlcnMuIFRoZSBtdWx0aXBsZSBpbXB1dGF0aW9ucyBtZXRob2QgZ2l2ZXMgYSBsaXN0IG9mIGVxdWFsbHkgZ29vZCBndWVzc2VzLiBUaGUgcmVzdWx0cyBmcm9tIHRoZSBjb21wbGV0ZS1jYXNlIGRhdGEgd2l0aCBkaWZmZXJlbnQgaW1wdXRlZCB2YWx1ZXMgYXJlIG5vdCBpZGVudGljYWwsIGJ1dCBhcmUgc2ltaWxhci4gDQoNCiMjIyoqU291cmNlKioNClNtaXRoLCBKLlcuLCBFdmVyaGFydCwgSi5FLiwgRGlja3NvbiwgVy5DLiwgS25vd2xlciwgVy5DLiwgJiBKb2hhbm5lcywgUi5TLiAoMTk4OCkuIFVzaW5nIHRoZSBBREFQIGxlYXJuaW5nIGFsZ29yaXRobSB0byBmb3JlY2FzdCB0aGUgb25zZXQgb2YgZGlhYmV0ZXMgbWVsbGl0dXMuIEluIFByb2NlZWRpbmdzIG9mIHRoZSBTeW1wb3NpdW0gb24gQ29tcHV0ZXIgQXBwbGljYXRpb25zIGFuZCBNZWRpY2FsIENhcmUgKHBwLiAyNjEtLTI2NSkuIElFRUUgQ29tcHV0ZXIgU29jaWV0eSBQcmVzcy4NCg0KUmlwbGV5LCBCLkQuICgxOTk2KSBQYXR0ZXJuIFJlY29nbml0aW9uIGFuZCBOZXVyYWwgTmV0d29ya3MuIENhbWJyaWRnZTogQ2FtYnJpZGdlIFVuaXZlcnNpdHkgUHJlc3Mu

Missing Data and Multiple Imputation

Sangita Roy

April 29, 2018