Loading ggplot

library(ggplot2)

Print the head of the dataset

path <- "/Users/pulkitbatra/Downloads/archive-2/train.csv"
trainingSet = read.csv(path)

Check for NA and missing values is.na return a vector with value TT for missing values.

numberOfNA = length(which(is.na(trainingSet)==T))
if(numberOfNA > 0) {
  cat('Number of missing values found: ', numberOfNA)
  cat('\nRemoving missing values...')
  trainingSet = trainingSet[complete.cases(trainingSet), ]
}

Number of missing values found:  1
Removing missing values...

Check for outliers Divide the graph area in 2 columns

par(mfrow = c(1, 2))
# Boxplot for X
boxplot(trainingSet$x, main='X', sub=paste('Outliers: ', boxplot.stats(trainingSet$x)$out))
# Boxplot for Y
boxplot(trainingSet$y, main='Y', sub=paste('Outliers: ', boxplot.stats(trainingSet$y)$out))

cor(trainingSet$x, trainingSet$y)

[1] 0.9953399

0.99 shows a very strong relation.

regressor = lm(formula = y ~.,
               data = trainingSet)

summary(regressor)


Call:
lm(formula = y ~ ., data = trainingSet)

Residuals:
    Min      1Q  Median      3Q     Max 
-9.1523 -2.0179  0.0325  1.8573  8.9132 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.107265   0.212170  -0.506    0.613    
x            1.000656   0.003672 272.510   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.809 on 697 degrees of freedom
Multiple R-squared:  0.9907,    Adjusted R-squared:  0.9907 
F-statistic: 7.426e+04 on 1 and 697 DF,  p-value: < 2.2e-16

plot

ggplot() +
  geom_point(aes(x = trainingSet$x, y = trainingSet$y),
             colour = 'red') +
  geom_line(aes(x = trainingSet$x, y = predict(regressor, newdata = trainingSet)),
            colour = 'blue') +
  ggtitle('X vs Y (Training set)') +
  xlab('X') +
  ylab('Y')

## Test

testPath <- "/Users/pulkitbatra/Downloads/archive-2/test.csv"
testSet = read.csv(testPath)

y_pred = predict(regressor, newdata = testSet)

Visualsing the result

ggplot() +
  geom_point(aes(x = testSet$x, y = testSet$y),
             colour = 'red') +
  geom_line(aes(x = trainingSet$x, y = predict(regressor, newdata = trainingSet)),
            colour = 'blue') +
  ggtitle('X vs Y (Test set)') +
  xlab('X') +
  ylab('Y')

# Plot shows model was a good fit.

compare <- cbind (actual=testSet$x, y_pred)  # combine actual and predicted
mean (apply(compare, 1, min)/apply(compare, 1, max))

[1] -Inf

mean(0.9,0.9,0.9,0.9)

[1] 0.9

### Check for residual mean and distribution

plot(trainingSet$y, resid(regressor), 
     ylab="Residuals", xlab="Price", 
     main="Residual plot")

mean(regressor$residuals)

[1] -1.353233e-16

LS0tCnRpdGxlOiAiTGluZWFyUmVnZ3Jlc2lvbiIKb3V0cHV0OiBodG1sX25vdGVib29rCi0tLQoKIyBMb2FkaW5nIGdncGxvdApgYGB7cn0KbGlicmFyeShnZ3Bsb3QyKQpgYGAKCgoKIyMjIFByaW50IHRoZSBoZWFkIG9mIHRoZSBkYXRhc2V0CgpgYGB7cn0KcGF0aCA8LSAiL1VzZXJzL3B1bGtpdGJhdHJhL0Rvd25sb2Fkcy9hcmNoaXZlLTIvdHJhaW4uY3N2Igp0cmFpbmluZ1NldCA9IHJlYWQuY3N2KHBhdGgpCgpgYGAKCkNoZWNrIGZvciBOQSBhbmQgbWlzc2luZyB2YWx1ZXMKaXMubmEgcmV0dXJuIGEgdmVjdG9yIHdpdGggdmFsdWUgVFQgZm9yIG1pc3NpbmcgdmFsdWVzLgoKYGBge3J9Cm51bWJlck9mTkEgPSBsZW5ndGgod2hpY2goaXMubmEodHJhaW5pbmdTZXQpPT1UKSkKaWYobnVtYmVyT2ZOQSA+IDApIHsKICBjYXQoJ051bWJlciBvZiBtaXNzaW5nIHZhbHVlcyBmb3VuZDogJywgbnVtYmVyT2ZOQSkKICBjYXQoJ1xuUmVtb3ZpbmcgbWlzc2luZyB2YWx1ZXMuLi4nKQogIHRyYWluaW5nU2V0ID0gdHJhaW5pbmdTZXRbY29tcGxldGUuY2FzZXModHJhaW5pbmdTZXQpLCBdCn0KCmBgYAoKQ2hlY2sgZm9yIG91dGxpZXJzCkRpdmlkZSB0aGUgZ3JhcGggYXJlYSBpbiAyIGNvbHVtbnMKCmBgYHtyfQpwYXIobWZyb3cgPSBjKDEsIDIpKQojIEJveHBsb3QgZm9yIFgKYm94cGxvdCh0cmFpbmluZ1NldCR4LCBtYWluPSdYJywgc3ViPXBhc3RlKCdPdXRsaWVyczogJywgYm94cGxvdC5zdGF0cyh0cmFpbmluZ1NldCR4KSRvdXQpKQojIEJveHBsb3QgZm9yIFkKYm94cGxvdCh0cmFpbmluZ1NldCR5LCBtYWluPSdZJywgc3ViPXBhc3RlKCdPdXRsaWVyczogJywgYm94cGxvdC5zdGF0cyh0cmFpbmluZ1NldCR5KSRvdXQpKQpgYGAKCmBgYHtyfQpjb3IodHJhaW5pbmdTZXQkeCwgdHJhaW5pbmdTZXQkeSkKYGBgCgogMC45OSBzaG93cyBhIHZlcnkgc3Ryb25nIHJlbGF0aW9uLgpgYGB7cn0KcmVncmVzc29yID0gbG0oZm9ybXVsYSA9IHkgfi4sCiAgICAgICAgICAgICAgIGRhdGEgPSB0cmFpbmluZ1NldCkKYGBgCiAKYGBge3J9CnN1bW1hcnkocmVncmVzc29yKQpgYGAKIAogCiBwbG90CiAKYGBge3J9CmdncGxvdCgpICsKICBnZW9tX3BvaW50KGFlcyh4ID0gdHJhaW5pbmdTZXQkeCwgeSA9IHRyYWluaW5nU2V0JHkpLAogICAgICAgICAgICAgY29sb3VyID0gJ3JlZCcpICsKICBnZW9tX2xpbmUoYWVzKHggPSB0cmFpbmluZ1NldCR4LCB5ID0gcHJlZGljdChyZWdyZXNzb3IsIG5ld2RhdGEgPSB0cmFpbmluZ1NldCkpLAogICAgICAgICAgICBjb2xvdXIgPSAnYmx1ZScpICsKICBnZ3RpdGxlKCdYIHZzIFkgKFRyYWluaW5nIHNldCknKSArCiAgeGxhYignWCcpICsKICB5bGFiKCdZJykKYGBgCiAKIAogIyMgVGVzdAogCmBgYHtyfQp0ZXN0UGF0aCA8LSAiL1VzZXJzL3B1bGtpdGJhdHJhL0Rvd25sb2Fkcy9hcmNoaXZlLTIvdGVzdC5jc3YiCnRlc3RTZXQgPSByZWFkLmNzdih0ZXN0UGF0aCkKCnlfcHJlZCA9IHByZWRpY3QocmVncmVzc29yLCBuZXdkYXRhID0gdGVzdFNldCkKYGBgCiAKIAogVmlzdWFsc2luZyB0aGUgcmVzdWx0CiAKYGBge3J9CmdncGxvdCgpICsKICBnZW9tX3BvaW50KGFlcyh4ID0gdGVzdFNldCR4LCB5ID0gdGVzdFNldCR5KSwKICAgICAgICAgICAgIGNvbG91ciA9ICdyZWQnKSArCiAgZ2VvbV9saW5lKGFlcyh4ID0gdHJhaW5pbmdTZXQkeCwgeSA9IHByZWRpY3QocmVncmVzc29yLCBuZXdkYXRhID0gdHJhaW5pbmdTZXQpKSwKICAgICAgICAgICAgY29sb3VyID0gJ2JsdWUnKSArCiAgZ2d0aXRsZSgnWCB2cyBZIChUZXN0IHNldCknKSArCiAgeGxhYignWCcpICsKICB5bGFiKCdZJykKYGBgCiAKIAogIyBQbG90IHNob3dzIG1vZGVsIHdhcyBhIGdvb2QgZml0LgogCmBgYHtyfQpjb21wYXJlIDwtIGNiaW5kIChhY3R1YWw9dGVzdFNldCR4LCB5X3ByZWQpICAjIGNvbWJpbmUgYWN0dWFsIGFuZCBwcmVkaWN0ZWQKbWVhbiAoYXBwbHkoY29tcGFyZSwgMSwgbWluKS9hcHBseShjb21wYXJlLCAxLCBtYXgpKQptZWFuKDAuOSwwLjksMC45LDAuOSkKYGBgCiAKIAogIyMjIENoZWNrIGZvciByZXNpZHVhbCBtZWFuIGFuZCBkaXN0cmlidXRpb24KCmBgYHtyfQpwbG90KHRyYWluaW5nU2V0JHksIHJlc2lkKHJlZ3Jlc3NvciksIAogICAgIHlsYWI9IlJlc2lkdWFscyIsIHhsYWI9IlByaWNlIiwgCiAgICAgbWFpbj0iUmVzaWR1YWwgcGxvdCIpIAptZWFuKHJlZ3Jlc3NvciRyZXNpZHVhbHMpCmBgYAoK

LinearReggresion

Loading ggplot

Print the head of the dataset