Multiple Regression - Residual Analysis

Introduction

In this blog, we are going to do residual analysis.The residual analysis help us to fugue if a linear model is appropriate to a given data set. Prior to start, you will need to load both “tidyverse” and “openintro” where the dataset used is found. The data set is called evals, gathered from end of semester student evaluations for a large sample of professors from the University of Texas at Austin. In addition, six students rated the professors’ physical appearance.

Let first load the libraries…

Libraries

library(tidyverse)
library(openintro)

As libraries are loaded, we are going to proceed with data exploration to help us getting ideas on the data we are using.

Data Exploration

glimpse(evals)

To know the meaning of each variable, you can run the code below..

?evals

Know that we know about our data, it is a good time to prepare it for our analysis.

Data Preparation

We have a dichotomous variable (a variable that takes only one of two possibilities): Gender which has two levels, male and female, and we are going to make each one the possibilities to be a separate variable.

evals <- evals %>%
  mutate("male" = ifelse(evals$gender == "male", 1, 0)) %>%
  mutate("female" = ifelse(evals$gender == "female", 1, 0))

evals <- select (evals, -c("gender"))

Adding quadratic term (square Percent of students in class who completed evaluation), and dichotomous vs. quantitative interaction term (interaction between male and Average beauty rating of professor )

evals <- evals %>%
  mutate("cls_perc_eval_sq" = cls_perc_eval^2) %>%
  mutate("male_perc_beauty" = male * bty_avg)

Now it is a good time for us to build the model.

The Model

Let’s run the full model…

df_lm_full <- lm(score ~ rank + male + female + ethnicity + language + age + cls_perc_eval 
             + cls_students + cls_level + cls_profs + cls_credits + bty_avg 
             + pic_outfit + pic_color + cls_perc_eval_sq + male_perc_beauty, data = evals)

summary(df_lm_full)

## 
## Call:
## lm(formula = score ~ rank + male + female + ethnicity + language + 
##     age + cls_perc_eval + cls_students + cls_level + cls_profs + 
##     cls_credits + bty_avg + pic_outfit + pic_color + cls_perc_eval_sq + 
##     male_perc_beauty, data = evals)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.72712 -0.32545  0.07036  0.36050  0.94499 
## 
## Coefficients: (1 not defined because of singularities)
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            4.588e+00  4.302e-01  10.665  < 2e-16 ***
## ranktenure track      -1.229e-01  8.361e-02  -1.470  0.14225    
## ranktenured           -4.983e-02  6.856e-02  -0.727  0.46774    
## male                  -1.811e-01  1.597e-01  -1.134  0.25731    
## female                        NA         NA      NA       NA    
## ethnicitynot minority  8.623e-02  7.985e-02   1.080  0.28075    
## languagenon-english   -2.597e-01  1.118e-01  -2.323  0.02064 *  
## age                   -8.621e-03  3.151e-03  -2.736  0.00646 ** 
## cls_perc_eval         -3.375e-03  9.329e-03  -0.362  0.71772    
## cls_students           3.431e-04  3.800e-04   0.903  0.36719    
## cls_levelupper         7.701e-02  5.779e-02   1.333  0.18335    
## cls_profssingle       -2.851e-02  5.197e-02  -0.549  0.58350    
## cls_creditsone credit  5.528e-01  1.168e-01   4.733 2.98e-06 ***
## bty_avg               -4.416e-03  2.450e-02  -0.180  0.85703    
## pic_outfitnot formal  -1.062e-01  7.350e-02  -1.444  0.14933    
## pic_colorcolor        -2.326e-01  7.155e-02  -3.251  0.00124 ** 
## cls_perc_eval_sq       6.045e-05  6.707e-05   0.901  0.36793    
## male_perc_beauty       8.738e-02  3.369e-02   2.594  0.00980 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4951 on 446 degrees of freedom
## Multiple R-squared:  0.2001, Adjusted R-squared:  0.1714 
## F-statistic: 6.974 on 16 and 446 DF,  p-value: 2.142e-14

About the coefficients

The following coefficients have the p-value > 0.05 and might be dropped: ranktenure, ranktenured, ethnicitynot minority, cls_perc_eval, cls_students, cls_levelupper, cls_profssingle, bty_avg, pic_outfitnot formal, cls_perc_eval_sq

Since I run the full model, now let do the backward eliminating to adjust the model before residual analysis. There is a specific function that can help us to do backward elemination (step function) but for this case as we mentioned, we are just going to drop the coefficients that we think, according to their p_value, don’t have a big impact in the model.

df_lm_back <- lm(score ~ language + age +  
              + cls_credits 
             + pic_color + male_perc_beauty, data = evals)

summary(df_lm_back)

## 
## Call:
## lm(formula = score ~ language + age + +cls_credits + pic_color + 
##     male_perc_beauty, data = evals)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.72867 -0.33006  0.05769  0.38667  0.95560 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            4.624001   0.129915  35.593  < 2e-16 ***
## languagenon-english   -0.287925   0.098389  -2.926  0.00360 ** 
## age                   -0.007661   0.002403  -3.188  0.00153 ** 
## cls_creditsone credit  0.489696   0.099647   4.914 1.24e-06 ***
## pic_colorcolor        -0.281230   0.062822  -4.477 9.59e-06 ***
## male_perc_beauty       0.058623   0.009930   5.903 6.95e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5017 on 457 degrees of freedom
## Multiple R-squared:  0.1582, Adjusted R-squared:  0.149 
## F-statistic: 17.17 on 5 and 457 DF,  p-value: 1.4e-15

Multiple r square has improved but there is not any big improvement on the rse nor the adjusted r square

Residual analysis

There are two conditions that we are going to be focus on here for residual analysis: Nearly normal residuals and linearity.

Nearly normal residuals

Let’s plot an histogram…

ggplot(data = df_lm_full, aes(x = .resid)) +
  geom_histogram(binwidth = 1)+
  xlab("Residuals")

The histogram shows that the distribution is not really normal, looks left skewed.

Or a normal probability plot of residuals…

qqnorm(resid(df_lm_full))
qqline(resid(df_lm_full))

As per Q-Q plot, the residuals distribution is not really normal.

Linearity

ggplot(data = df_lm_full, aes(x = .fitted, y = .resid)) +
  geom_point()+
  
  geom_hline(yintercept = 0, linetype = "dashed") +
  xlab("Fitted values") +
  ylab("Residuals")

As we look at on the graph, we can see that there is a pattern in residuals and a linear model wouldn’t be stronger and efficient

Conclusion

From the diagnostics, we can say that the linear model wouldn’t be more appropriate. or will need to make more adjustment with the variables.

LS0tDQp0aXRsZTogIk11bHRpcGxlIFJlZ3Jlc3Npb24gLSBSZXNpZHVhbCBBbmFseXNpcyINCmF1dGhvcjogIkplcmVkIEF0YWt5Ig0Kb3V0cHV0OiANCiAgb3BlbmludHJvOjpsYWJfcmVwb3J0OiBkZWZhdWx0DQogIGh0bWxfZG9jdW1lbnQ6DQogICAgbnVtYmVyX3NlY3Rpb25zOiB5ZXMNCi0tLQ0KDQpgYGB7ciBpbmNsdWRlID0gRkFMU0V9DQprbml0cjo6b3B0c19jaHVuayRzZXQoZXZhbCA9IFRSVUUsIG1lc3NhZ2UgPSBGQUxTRSwgd2FybmluZyA9IEZBTFNFKQ0KYGBgDQoNCg0KIyMgSW50cm9kdWN0aW9uDQoNCkluIHRoaXMgYmxvZywgd2UgYXJlIGdvaW5nIHRvIGRvIHJlc2lkdWFsIGFuYWx5c2lzLlRoZSByZXNpZHVhbCBhbmFseXNpcyBoZWxwIHVzIHRvIGZ1Z3VlIGlmIGEgDQpsaW5lYXIgbW9kZWwgaXMgYXBwcm9wcmlhdGUgdG8gYSBnaXZlbiBkYXRhIHNldC4NClByaW9yIHRvIHN0YXJ0LCB5b3Ugd2lsbCBuZWVkIHRvIGxvYWQgYm90aCAidGlkeXZlcnNlIiBhbmQgIm9wZW5pbnRybyIgd2hlcmUgdGhlIGRhdGFzZXQgdXNlZCBpcyBmb3VuZC4NClRoZSBkYXRhIHNldCBpcyBjYWxsZWQgYGV2YWxzYCwgZ2F0aGVyZWQgZnJvbSBlbmQgb2Ygc2VtZXN0ZXIgc3R1ZGVudCBldmFsdWF0aW9ucyBmb3IgYSBsYXJnZSANCnNhbXBsZSBvZiBwcm9mZXNzb3JzIGZyb20gdGhlIFVuaXZlcnNpdHkgb2YgVGV4YXMgYXQgQXVzdGluLiBJbiBhZGRpdGlvbiwgc2l4IA0Kc3R1ZGVudHMgcmF0ZWQgdGhlIHByb2Zlc3NvcnMnIHBoeXNpY2FsIGFwcGVhcmFuY2UuIA0KDQpMZXQgZmlyc3QgbG9hZCB0aGUgbGlicmFyaWVzLi4uDQoNCiMjIExpYnJhcmllcw0KDQpgYGB7ciBsb2FkLXBhY2thZ2VzLCBtZXNzYWdlPUZBTFNFfQ0KbGlicmFyeSh0aWR5dmVyc2UpDQpsaWJyYXJ5KG9wZW5pbnRybykNCmBgYA0KDQpBcyBsaWJyYXJpZXMgYXJlIGxvYWRlZCwgd2UgYXJlIGdvaW5nIHRvIHByb2NlZWQgd2l0aCBkYXRhIGV4cGxvcmF0aW9uIHRvIGhlbHAgdXMgZ2V0dGluZw0KaWRlYXMgb24gdGhlIGRhdGEgd2UgYXJlIHVzaW5nLg0KDQoNCiMjIERhdGEgRXhwbG9yYXRpb24NCg0KDQpgYGB7ciwgZXZhbCA9IEZBTFNFfQ0KIA0KZ2xpbXBzZShldmFscykNCmBgYA0KDQoNClRvIGtub3cgdGhlIG1lYW5pbmcgb2YgZWFjaCB2YXJpYWJsZSwgeW91IGNhbiBydW4gdGhlIGNvZGUgYmVsb3cuLg0KYGBge3IgaGVscC1ldmFscywgZXZhbCA9IEZBTFNFfQ0KDQo/ZXZhbHMNCg0KYGBgDQoNCg0KS25vdyB0aGF0IHdlIGtub3cgYWJvdXQgb3VyIGRhdGEsIGl0IGlzIGEgZ29vZCB0aW1lIHRvIHByZXBhcmUgaXQgZm9yIG91ciBhbmFseXNpcy4NCg0KIyMgRGF0YSBQcmVwYXJhdGlvbg0KDQpXZSBoYXZlIGEgZGljaG90b21vdXMgdmFyaWFibGUgKGEgdmFyaWFibGUgdGhhdCB0YWtlcyBvbmx5IG9uZSBvZiB0d28gcG9zc2liaWxpdGllcyk6DQpHZW5kZXIgd2hpY2ggaGFzIHR3byBsZXZlbHMsIG1hbGUgYW5kIGZlbWFsZSwgYW5kIHdlIGFyZSBnb2luZyB0byBtYWtlIGVhY2ggb25lIHRoZSBwb3NzaWJpbGl0aWVzIA0KdG8gYmUgYSBzZXBhcmF0ZSB2YXJpYWJsZS4NCg0KDQpgYGB7cn0NCg0KZXZhbHMgPC0gZXZhbHMgJT4lDQogIG11dGF0ZSgibWFsZSIgPSBpZmVsc2UoZXZhbHMkZ2VuZGVyID09ICJtYWxlIiwgMSwgMCkpICU+JQ0KICBtdXRhdGUoImZlbWFsZSIgPSBpZmVsc2UoZXZhbHMkZ2VuZGVyID09ICJmZW1hbGUiLCAxLCAwKSkNCg0KYGBgDQoNCg0KDQpgYGB7cn0NCg0KZXZhbHMgPC0gc2VsZWN0IChldmFscywgLWMoImdlbmRlciIpKQ0KDQpgYGANCg0KDQpBZGRpbmcgcXVhZHJhdGljIHRlcm0gKHNxdWFyZSBQZXJjZW50IG9mIHN0dWRlbnRzIGluIGNsYXNzIHdobyBjb21wbGV0ZWQgZXZhbHVhdGlvbiksIA0KYW5kIGRpY2hvdG9tb3VzIHZzLiBxdWFudGl0YXRpdmUgaW50ZXJhY3Rpb24gdGVybSAoaW50ZXJhY3Rpb24gYmV0d2VlbiBtYWxlIGFuZCBBdmVyYWdlIGJlYXV0eSByYXRpbmcgb2YgcHJvZmVzc29yICkNCg0KDQpgYGB7cn0NCg0KZXZhbHMgPC0gZXZhbHMgJT4lDQogIG11dGF0ZSgiY2xzX3BlcmNfZXZhbF9zcSIgPSBjbHNfcGVyY19ldmFsXjIpICU+JQ0KICBtdXRhdGUoIm1hbGVfcGVyY19iZWF1dHkiID0gbWFsZSAqIGJ0eV9hdmcpDQpgYGANCg0KDQpOb3cgaXQgaXMgYSBnb29kIHRpbWUgZm9yIHVzIHRvIGJ1aWxkIHRoZSBtb2RlbC4NCg0KIyMgVGhlIE1vZGVsDQoNCkxldCdzIHJ1biB0aGUgZnVsbCBtb2RlbC4uLg0KDQpgYGB7ciBtX2JhY2t9DQpkZl9sbV9mdWxsIDwtIGxtKHNjb3JlIH4gcmFuayArIG1hbGUgKyBmZW1hbGUgKyBldGhuaWNpdHkgKyBsYW5ndWFnZSArIGFnZSArIGNsc19wZXJjX2V2YWwgDQogICAgICAgICAgICAgKyBjbHNfc3R1ZGVudHMgKyBjbHNfbGV2ZWwgKyBjbHNfcHJvZnMgKyBjbHNfY3JlZGl0cyArIGJ0eV9hdmcgDQogICAgICAgICAgICAgKyBwaWNfb3V0Zml0ICsgcGljX2NvbG9yICsgY2xzX3BlcmNfZXZhbF9zcSArIG1hbGVfcGVyY19iZWF1dHksIGRhdGEgPSBldmFscykNCg0Kc3VtbWFyeShkZl9sbV9mdWxsKQ0KYGBgDQoNCioqQWJvdXQgdGhlIGNvZWZmaWNpZW50cyoqDQoNCg0KVGhlIGZvbGxvd2luZyBjb2VmZmljaWVudHMgaGF2ZSB0aGUgcC12YWx1ZSA+IDAuMDUgYW5kIG1pZ2h0IGJlIGRyb3BwZWQ6DQpyYW5rdGVudXJlLCByYW5rdGVudXJlZCwgZXRobmljaXR5bm90IG1pbm9yaXR5LCBjbHNfcGVyY19ldmFsLA0KY2xzX3N0dWRlbnRzLCBjbHNfbGV2ZWx1cHBlciwgY2xzX3Byb2Zzc2luZ2xlLCBidHlfYXZnLCANCnBpY19vdXRmaXRub3QgZm9ybWFsLCBjbHNfcGVyY19ldmFsX3NxDQoNClNpbmNlIEkgcnVuIHRoZSBmdWxsIG1vZGVsLCBub3cgbGV0IGRvIHRoZSBiYWNrd2FyZCBlbGltaW5hdGluZyB0byBhZGp1c3QgdGhlIG1vZGVsICBiZWZvcmUgDQpyZXNpZHVhbCBhbmFseXNpcy4gVGhlcmUgaXMgYSBzcGVjaWZpYyBmdW5jdGlvbiB0aGF0IGNhbiBoZWxwIHVzIHRvIGRvIGJhY2t3YXJkIGVsZW1pbmF0aW9uIChzdGVwIGZ1bmN0aW9uKSBidXQgZm9yIHRoaXMgY2FzZSBhcyB3ZSBtZW50aW9uZWQsIHdlIGFyZSBqdXN0IGdvaW5nIHRvIGRyb3AgdGhlIGNvZWZmaWNpZW50cyB0aGF0IHdlIHRoaW5rLA0KYWNjb3JkaW5nIHRvIHRoZWlyIHBfdmFsdWUsIGRvbid0IGhhdmUgYSBiaWcgaW1wYWN0IGluIHRoZSBtb2RlbC4NCg0KDQpgYGB7cn0NCmRmX2xtX2JhY2sgPC0gbG0oc2NvcmUgfiBsYW5ndWFnZSArIGFnZSArICANCiAgICAgICAgICAgICAgKyBjbHNfY3JlZGl0cyANCiAgICAgICAgICAgICArIHBpY19jb2xvciArIG1hbGVfcGVyY19iZWF1dHksIGRhdGEgPSBldmFscykNCg0Kc3VtbWFyeShkZl9sbV9iYWNrKQ0KYGBgDQoNCg0KTXVsdGlwbGUgciBzcXVhcmUgaGFzIGltcHJvdmVkIGJ1dCB0aGVyZSBpcyBub3QgYW55IGJpZyBpbXByb3ZlbWVudCBvbiB0aGUgDQpyc2Ugbm9yIHRoZSBhZGp1c3RlZCByIHNxdWFyZQ0KDQoNCg0KIyMgUmVzaWR1YWwgYW5hbHlzaXMNCg0KVGhlcmUgYXJlIHR3byBjb25kaXRpb25zIHRoYXQgd2UgYXJlIGdvaW5nIHRvIGJlIGZvY3VzIG9uIGhlcmUgZm9yIHJlc2lkdWFsIGFuYWx5c2lzOg0KTmVhcmx5IG5vcm1hbCByZXNpZHVhbHMgYW5kIGxpbmVhcml0eS4NCg0KKipOZWFybHkgbm9ybWFsIHJlc2lkdWFscyoqDQoNCkxldCdzIHBsb3QgYW4gaGlzdG9ncmFtLi4uDQoNCmBgYHtyfQ0KDQpnZ3Bsb3QoZGF0YSA9IGRmX2xtX2Z1bGwsIGFlcyh4ID0gLnJlc2lkKSkgKw0KICBnZW9tX2hpc3RvZ3JhbShiaW53aWR0aCA9IDEpKw0KICB4bGFiKCJSZXNpZHVhbHMiKQ0KDQoNCmBgYA0KDQpUaGUgaGlzdG9ncmFtIHNob3dzIHRoYXQgdGhlIGRpc3RyaWJ1dGlvbiBpcyBub3QgcmVhbGx5IG5vcm1hbCwgbG9va3MgbGVmdCBza2V3ZWQuIA0KDQpPciBhIG5vcm1hbCBwcm9iYWJpbGl0eSBwbG90IG9mIHJlc2lkdWFscy4uLg0KDQoNCmBgYHtyfQ0KcXFub3JtKHJlc2lkKGRmX2xtX2Z1bGwpKQ0KcXFsaW5lKHJlc2lkKGRmX2xtX2Z1bGwpKQ0KDQpgYGANCg0KDQpBcyBwZXIgUS1RIHBsb3QsIHRoZSByZXNpZHVhbHMgZGlzdHJpYnV0aW9uIGlzIG5vdCByZWFsbHkgbm9ybWFsLiANCg0KDQoqKkxpbmVhcml0eSoqDQoNCmBgYHtyfQ0KDQpnZ3Bsb3QoZGF0YSA9IGRmX2xtX2Z1bGwsIGFlcyh4ID0gLmZpdHRlZCwgeSA9IC5yZXNpZCkpICsNCiAgZ2VvbV9wb2ludCgpKw0KICANCiAgZ2VvbV9obGluZSh5aW50ZXJjZXB0ID0gMCwgbGluZXR5cGUgPSAiZGFzaGVkIikgKw0KICB4bGFiKCJGaXR0ZWQgdmFsdWVzIikgKw0KICB5bGFiKCJSZXNpZHVhbHMiKQ0KDQoNCmBgYA0KDQoNCg0KQXMgd2UgbG9vayBhdCBvbiB0aGUgZ3JhcGgsIHdlIGNhbiBzZWUgdGhhdA0KdGhlcmUgaXMgYSBwYXR0ZXJuIGluIHJlc2lkdWFscyBhbmQgYSBsaW5lYXIgbW9kZWwgd291bGRuJ3QgYmUgc3Ryb25nZXIgYW5kIGVmZmljaWVudA0KDQoNCiMjIENvbmNsdXNpb24NCg0KRnJvbSB0aGUgZGlhZ25vc3RpY3MsIHdlIGNhbiBzYXkgdGhhdCB0aGUgbGluZWFyIG1vZGVsIHdvdWxkbid0IGJlIG1vcmUgYXBwcm9wcmlhdGUuDQpvciB3aWxsIG5lZWQgdG8gbWFrZSBtb3JlIGFkanVzdG1lbnQgd2l0aCB0aGUgdmFyaWFibGVzLg0K