Aravind data analysis on multilinear regression

This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.

Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Ctrl+Shift+Enter.

my_locale <- Sys.getlocale("LC_ALL")
Sys.setlocale("LC_ALL", my_locale)

OS reports request to set locale to "LC_COLLATE=English_India.1252;LC_CTYPE=English_India.1252;LC_MONETARY=English_India.1252;LC_NUMERIC=C;LC_TIME=English_India.1252" cannot be honored

[1] ""

library(readxl)
Multilinear_regression_salary <- read_excel("C:/Users/DELL/Desktop/Imarticus/Assignments excel/Regression_BATCH2.xlsx")
View(Multilinear_regression_salary)

This dataset is all about predicting salary based on the variables.The variables GPA,Experience,Student,School ranking,Salary.

str(Multilinear_regression_salary)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   40 obs. of  5 variables:
 $ Student       : num  1 2 3 4 5 6 7 8 9 10 ...
 $ School_Ranking: num  78 56 23 67 56 78 68 89 37 67 ...
 $ GPA           : num  2.92 3.84 3.04 3.2 3.61 2.99 3.78 3.2 3.42 3.05 ...
 $ Experience    : num  3 9 6 6 7 5 8 5 7 5 ...
 $ Salary        : num  73590 87000 76970 79320 79530 ...

View function is used to view our dataset.

summary(Multilinear_regression_salary)

    Student      School_Ranking       GPA          Experience   
 Min.   : 1.00   Min.   :15.00   Min.   :2.760   Min.   :2.000  
 1st Qu.:10.75   1st Qu.:45.75   1st Qu.:3.033   1st Qu.:5.000  
 Median :20.50   Median :67.00   Median :3.155   Median :6.000  
 Mean   :20.50   Mean   :59.88   Mean   :3.233   Mean   :5.975  
 3rd Qu.:30.25   3rd Qu.:76.50   3rd Qu.:3.350   3rd Qu.:7.000  
 Max.   :40.00   Max.   :89.00   Max.   :3.850   Max.   :9.000  
     Salary     
 Min.   :71040  
 1st Qu.:76913  
 Median :78670  
 Mean   :78721  
 3rd Qu.:80600  
 Max.   :87000

Summary of the dataset gives us the minimum value,maximum value, quartile values,mean,median. This gives us the basic understanding of our dataset.

str(Multilinear_regression_salary)

str stands for structure of the dataset to find out which are characters and which are numerical

Plot simply gives a scatter plot of our dataset including all variables.

Scatter.smooth gives us same scatter plot as plot but here we have done for only one variable

This is a boxplot for student variable of the dataset.

This boxplot is for school ranking variable of the dataset.

This boxplot is for only GPA variable ofthe dataset.

This boxplot contains for Experience variable of the dataset.

This boxplot is for salary variable of the datset.

This barplot compares salary and student variables.

This barplot compares salary and school ranking.

This barplot compares salary and GPA.

This barplot compares Salary and Experience.

par(mfrow=c(1,4))

barplot(Multilinear_regression_salary$Salary,Multilinear_regression_salary$Student,col = c('blue','green'),main='Salary vs Student')
barplot(Multilinear_regression_salary$Salary,Multilinear_regression_salary$School_Ranking,col=c('green','red'),main='Salary vs School ranking')

barplot(Multilinear_regression_salary$Salary,Multilinear_regression_salary$GPA,col =c('blue','red'),main = 'Salary vs GPA')

barplot(Multilinear_regression_salary$Salary,Multilinear_regression_salary$Experience,col=c('red','yellow'),main='Salary vs Experience')

Now if we want to see all the four graphs in a single screen we use par function. We mention the row number and coloumn number in mfrow and we get all the graphs in a single screen.

cor(Multilinear_regression_salary)

                   Student School_Ranking        GPA Experience      Salary
Student         1.00000000      0.0582101 -0.1262402 0.04395596 -0.00261919
School_Ranking  0.05821010      1.0000000  0.2051312 0.20250931  0.23429048
GPA            -0.12624017      0.2051312  1.0000000 0.65904413  0.73788910
Experience      0.04395596      0.2025093  0.6590441 1.00000000  0.78580114
Salary         -0.00261919      0.2342905  0.7378891 0.78580114  1.00000000

Now we check the corrrelation for all the variables to determine the strength.

In order to plot the correlation co-efficients we call the corrplot from library. We assign a variable to corrplot and run that variable.

myreg


Call:
lm(formula = Salary ~ Student + School_Ranking + GPA + Experience, 
    data = Multilinear_regression_salary)

Coefficients:
   (Intercept)         Student  School_Ranking             GPA  
     52751.870           7.064           9.442        5534.006  
    Experience  
      1232.513

After checking correlation we move on to regression. To perform regression we declare a variable and use lm function and form the regression model.

summary(myreg)


Call:
lm(formula = Salary ~ Student + School_Ranking + GPA + Experience, 
    data = Multilinear_regression_salary)

Residuals:
    Min      1Q  Median      3Q     Max 
-6359.4  -736.0   306.7  1392.8  4440.1 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)    52751.870   4928.281  10.704 1.39e-12 ***
Student            7.064     31.929   0.221 0.826188    
School_Ranking     9.442     18.450   0.512 0.612031    
GPA             5534.006   1785.345   3.100 0.003811 ** 
Experience      1232.513    294.651   4.183 0.000183 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2273 on 35 degrees of freedom
Multiple R-squared:  0.7058,    Adjusted R-squared:  0.6722 
F-statistic: 20.99 on 4 and 35 DF,  p-value: 6.703e-09

Summary of the declared variable will give us the p value for considering our variables for the regression equation.

myreg1


Call:
lm(formula = Salary ~ GPA + Experience, data = Multilinear_regression_salary)

Coefficients:
(Intercept)          GPA   Experience  
      53295         5540         1257

After checking p value we have only two variables so we form a new eqaution with those two variables.

my_prediction_result

       1 
86620.66

Finaly with our formed regression equation we can predict for any given value.

LS0tDQp0aXRsZTogIkFyYXZpbmQgZGF0YSBhbmFseXNpcyBvbiBtdWx0aWxpbmVhciByZWdyZXNzaW9uIg0Kb3V0cHV0OiBodG1sX25vdGVib29rDQotLS0NCg0KVGhpcyBpcyBhbiBbUiBNYXJrZG93bl0oaHR0cDovL3JtYXJrZG93bi5yc3R1ZGlvLmNvbSkgTm90ZWJvb2suIFdoZW4geW91IGV4ZWN1dGUgY29kZSB3aXRoaW4gdGhlIG5vdGVib29rLCB0aGUgcmVzdWx0cyBhcHBlYXIgYmVuZWF0aCB0aGUgY29kZS4gDQoNClRyeSBleGVjdXRpbmcgdGhpcyBjaHVuayBieSBjbGlja2luZyB0aGUgKlJ1biogYnV0dG9uIHdpdGhpbiB0aGUgY2h1bmsgb3IgYnkgcGxhY2luZyB5b3VyIGN1cnNvciBpbnNpZGUgaXQgYW5kIHByZXNzaW5nICpDdHJsK1NoaWZ0K0VudGVyKi4gDQoNCmBgYHtyfQ0KbXlfbG9jYWxlIDwtIFN5cy5nZXRsb2NhbGUoIkxDX0FMTCIpDQpTeXMuc2V0bG9jYWxlKCJMQ19BTEwiLCBteV9sb2NhbGUpDQpsaWJyYXJ5KHJlYWR4bCkNCk11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5IDwtIHJlYWRfZXhjZWwoIkM6L1VzZXJzL0RFTEwvRGVza3RvcC9JbWFydGljdXMvQXNzaWdubWVudHMgZXhjZWwvUmVncmVzc2lvbl9CQVRDSDIueGxzeCIpDQpWaWV3KE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5KSANCmBgYA0KVGhpcyBkYXRhc2V0IGlzIGFsbCBhYm91dCBwcmVkaWN0aW5nIHNhbGFyeSBiYXNlZCBvbiB0aGUgdmFyaWFibGVzLlRoZSB2YXJpYWJsZXMgR1BBLEV4cGVyaWVuY2UsU3R1ZGVudCxTY2hvb2wgcmFua2luZyxTYWxhcnkuDQpgYGB7cn0NClZpZXcoTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkpDQpgYGANClZpZXcgZnVuY3Rpb24gaXMgdXNlZCB0byB2aWV3IG91ciBkYXRhc2V0Lg0KYGBge3J9DQpzdW1tYXJ5KE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5KQ0KYGBgDQpTdW1tYXJ5IG9mIHRoZSBkYXRhc2V0IGdpdmVzIHVzIHRoZSBtaW5pbXVtIHZhbHVlLG1heGltdW0gdmFsdWUsIHF1YXJ0aWxlIHZhbHVlcyxtZWFuLG1lZGlhbi4gVGhpcyBnaXZlcyB1cyB0aGUgYmFzaWMgdW5kZXJzdGFuZGluZyBvZiBvdXIgZGF0YXNldC4NCmBgYHtyfQ0Kc3RyKE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5KQ0KYGBgDQpzdHIgc3RhbmRzIGZvciBzdHJ1Y3R1cmUgb2YgdGhlIGRhdGFzZXQgdG8gZmluZCBvdXQgd2hpY2ggYXJlIGNoYXJhY3RlcnMgYW5kIHdoaWNoIGFyZSBudW1lcmljYWwNCmBgYHtyfQ0KcGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSkNCmBgYA0KUGxvdCBzaW1wbHkgZ2l2ZXMgYSBzY2F0dGVyIHBsb3Qgb2Ygb3VyIGRhdGFzZXQgaW5jbHVkaW5nIGFsbCB2YXJpYWJsZXMuDQpgYGB7cn0NCnNjYXR0ZXIuc21vb3RoKE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5KQ0KYGBgDQpTY2F0dGVyLnNtb290aCBnaXZlcyB1cyBzYW1lIHNjYXR0ZXIgcGxvdCBhcyBwbG90IGJ1dCBoZXJlIHdlIGhhdmUgZG9uZSBmb3Igb25seSBvbmUgdmFyaWFibGUNCmBgYHtyfQ0KYm94cGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRTdHVkZW50LGNvbD0nYmx1ZScsbWFpbj0nU3R1ZGVudCcpDQpgYGANClRoaXMgaXMgYSBib3hwbG90IGZvciBzdHVkZW50IHZhcmlhYmxlIG9mIHRoZSBkYXRhc2V0Lg0KYGBge3J9DQpib3hwbG90KE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5JFNjaG9vbF9SYW5raW5nLGNvbD0nZ3JlZW4nLG1haW49J1NjaG9vbCBSYW5raW5nJykNCmBgYA0KVGhpcyBib3hwbG90IGlzIGZvciBzY2hvb2wgcmFua2luZyB2YXJpYWJsZSBvZiB0aGUgZGF0YXNldC4NCmBgYHtyfQ0KYm94cGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRHUEEsY29sPSdyZWQnLG1haW49J0dQQScpDQpgYGANClRoaXMgYm94cGxvdCBpcyBmb3Igb25seSBHUEEgdmFyaWFibGUgb2Z0aGUgZGF0YXNldC4NCmBgYHtyfQ0KYm94cGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRFeHBlcmllbmNlLGNvbD0nb3JhbmdlJyxtYWluPSdFeHBlcmllbmNlJykNCmBgYA0KVGhpcyBib3hwbG90IGNvbnRhaW5zIGZvciBFeHBlcmllbmNlIHZhcmlhYmxlIG9mIHRoZSBkYXRhc2V0Lg0KDQoNCmBgYHtyfQ0KYm94cGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRTYWxhcnksY29sPSdyZWQnLG1haW49J1NhbGFyeScpDQpgYGANClRoaXMgYm94cGxvdCBpcyBmb3Igc2FsYXJ5IHZhcmlhYmxlIG9mIHRoZSBkYXRzZXQuDQpgYGB7cn0NCmJhcnBsb3QoTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkU2FsYXJ5LE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5JFN0dWRlbnQsY29sID0gYygnYmx1ZScsJ2dyZWVuJyksbWFpbj0nU2FsYXJ5IHZzIFN0dWRlbnQnKQ0KYGBgDQpUaGlzIGJhcnBsb3QgY29tcGFyZXMgc2FsYXJ5IGFuZCBzdHVkZW50IHZhcmlhYmxlcy4NCg0KDQpgYGB7cn0NCmJhcnBsb3QoTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkU2FsYXJ5LE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5JFNjaG9vbF9SYW5raW5nLGNvbD1jKCdncmVlbicsJ3JlZCcpLG1haW49J1NhbGFyeSB2cyBTY2hvb2wgcmFua2luZycpDQpgYGANClRoaXMgYmFycGxvdCBjb21wYXJlcyBzYWxhcnkgYW5kIHNjaG9vbCByYW5raW5nLg0KDQoNCmBgYHtyfQ0KYmFycGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRTYWxhcnksTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkR1BBLGNvbCA9YygnYmx1ZScsJ3JlZCcpLG1haW4gPSAnU2FsYXJ5IHZzIEdQQScpDQpgYGANClRoaXMgYmFycGxvdCBjb21wYXJlcyBzYWxhcnkgYW5kIEdQQS4NCmBgYHtyfQ0KYmFycGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRTYWxhcnksTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkRXhwZXJpZW5jZSxjb2w9YygncmVkJywneWVsbG93JyksbWFpbj0nU2FsYXJ5IHZzIEV4cGVyaWVuY2UnKQ0KYGBgDQpUaGlzIGJhcnBsb3QgY29tcGFyZXMgU2FsYXJ5IGFuZCBFeHBlcmllbmNlLg0KYGBge3J9DQpwYXIobWZyb3c9YygxLDQpKQ0KYGBgDQpgYGB7cn0NCmJhcnBsb3QoTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkU2FsYXJ5LE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5JFN0dWRlbnQsY29sID0gYygnYmx1ZScsJ2dyZWVuJyksbWFpbj0nU2FsYXJ5IHZzIFN0dWRlbnQnKQ0KYmFycGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRTYWxhcnksTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkU2Nob29sX1JhbmtpbmcsY29sPWMoJ2dyZWVuJywncmVkJyksbWFpbj0nU2FsYXJ5IHZzIFNjaG9vbCByYW5raW5nJykNCmJhcnBsb3QoTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkU2FsYXJ5LE11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5JEdQQSxjb2wgPWMoJ2JsdWUnLCdyZWQnKSxtYWluID0gJ1NhbGFyeSB2cyBHUEEnKQ0KYmFycGxvdChNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSRTYWxhcnksTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkkRXhwZXJpZW5jZSxjb2w9YygncmVkJywneWVsbG93JyksbWFpbj0nU2FsYXJ5IHZzIEV4cGVyaWVuY2UnKQ0KYGBgDQpOb3cgaWYgd2Ugd2FudCB0byBzZWUgYWxsIHRoZSBmb3VyIGdyYXBocyBpbiBhIHNpbmdsZSBzY3JlZW4gd2UgdXNlIHBhciBmdW5jdGlvbi4gV2UgbWVudGlvbiB0aGUgcm93IG51bWJlciBhbmQgY29sb3VtbiBudW1iZXIgaW4gbWZyb3cgYW5kIHdlIGdldCBhbGwgdGhlIGdyYXBocyBpbiBhIHNpbmdsZSBzY3JlZW4uDQpgYGB7cn0NCmNvcihNdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSkNCmBgYA0KTm93IHdlIGNoZWNrIHRoZSBjb3JycmVsYXRpb24gZm9yIGFsbCB0aGUgdmFyaWFibGVzIHRvIGRldGVybWluZSB0aGUgc3RyZW5ndGguIA0KYGBge3J9DQpsaWJyYXJ5KGNvcnJwbG90KQ0KYT1jb3IoTXVsdGlsaW5lYXJfcmVncmVzc2lvbl9zYWxhcnkpDQphDQpjb3JycGxvdChhKQ0KYGBgDQpJbiBvcmRlciB0byBwbG90IHRoZSBjb3JyZWxhdGlvbiBjby1lZmZpY2llbnRzIHdlIGNhbGwgdGhlIGNvcnJwbG90IGZyb20gbGlicmFyeS4gV2UgYXNzaWduIGEgdmFyaWFibGUgdG8gY29ycnBsb3QgYW5kIHJ1biB0aGF0IHZhcmlhYmxlLg0KYGBge3J9DQpteXJlZz1sbShTYWxhcnl+U3R1ZGVudCtTY2hvb2xfUmFua2luZytHUEErRXhwZXJpZW5jZSxkYXRhPU11bHRpbGluZWFyX3JlZ3Jlc3Npb25fc2FsYXJ5KQ0KbXlyZWcNCmBgYA0KQWZ0ZXIgY2hlY2tpbmcgY29ycmVsYXRpb24gd2UgbW92ZSBvbiB0byByZWdyZXNzaW9uLiBUbyBwZXJmb3JtIHJlZ3Jlc3Npb24gd2UgZGVjbGFyZSBhIHZhcmlhYmxlIGFuZCB1c2UgbG0gZnVuY3Rpb24gYW5kIGZvcm0gdGhlIHJlZ3Jlc3Npb24gbW9kZWwuDQpgYGB7cn0NCnN1bW1hcnkobXlyZWcpDQpgYGANClN1bW1hcnkgb2YgdGhlIGRlY2xhcmVkIHZhcmlhYmxlIHdpbGwgZ2l2ZSB1cyB0aGUgcCB2YWx1ZSBmb3IgY29uc2lkZXJpbmcgb3VyIHZhcmlhYmxlcyBmb3IgdGhlIHJlZ3Jlc3Npb24gZXF1YXRpb24uDQpgYGB7cn0NCm15cmVnMT1sbShTYWxhcnl+R1BBK0V4cGVyaWVuY2UsZGF0YT1NdWx0aWxpbmVhcl9yZWdyZXNzaW9uX3NhbGFyeSkNCm15cmVnMQ0KYGBgDQpBZnRlciBjaGVja2luZyBwIHZhbHVlIHdlIGhhdmUgb25seSB0d28gdmFyaWFibGVzIHNvIHdlIGZvcm0gYSBuZXcgZXFhdXRpb24gd2l0aCB0aG9zZSB0d28gdmFyaWFibGVzLg0KYGBge3J9DQpteV9wcmVkaWN0aW9uPWRhdGEuZnJhbWUoRXhwZXJpZW5jZT04LEdQQT00LjIpDQpteV9wcmVkaWN0aW9uX3Jlc3VsdD1wcmVkaWN0KG15cmVnMSxteV9wcmVkaWN0aW9uKQ0KbXlfcHJlZGljdGlvbl9yZXN1bHQNCmBgYGBgYA0KRmluYWx5IHdpdGggb3VyIGZvcm1lZCByZWdyZXNzaW9uIGVxdWF0aW9uIHdlIGNhbiBwcmVkaWN0IGZvciBhbnkgZ2l2ZW4gdmFsdWUuDQo=