Business Analytics Lab Worksheet 07

Notebook Instructions

About

In this lab, we will focus on linear and non-linear programming.
Linear programming, as discussed in the previous lab, works with simple and multiple linear regression techniques; sometimes the variables have completely direct or completely non-direct relationships and these techniques can model them.
Sometimes, however, the variables do not predict each other in a linear way. For example, looking at the stock market vs. time, we know that generally the market was booming before the crash, then the market crashed and the great depression hit, and slowly the market started to rise again.
This pattern is not linear, and in fact a non-linear programming technique can be used to model it and predict the value of the market based on the year.
In this lab, we will explore topics like optimization, solve a marketing model, and perform linear and non-linear regression on the cost of servers.

Load Packages in R/RStudio

We are going to use tidyverse a collection of R packages designed for data science.

Info: https://www.tidyverse.org/

Task 1: Linear Programming - Solving Marketing Model

1A) Create the model object in R.

lprec <- make.lp(0, 2)

Set the constrains and objective function for the model.

Set for maximum

lp.control(lprec, sense="max")

$anti.degen
[1] "fixedvars" "stalling" 

$basis.crash
[1] "none"

$bb.depthlimit
[1] -50

$bb.floorfirst
[1] "automatic"

$bb.rule
[1] "pseudononint" "greedy"       "dynamic"      "rcostfixing" 

$break.at.first
[1] FALSE

$break.at.value
[1] 1e+30

$epsilon
      epsb       epsd      epsel     epsint epsperturb   epspivot 
     1e-10      1e-09      1e-12      1e-07      1e-05      2e-07 

$improve
[1] "dualfeas" "thetagap"

$infinite
[1] 1e+30

$maxpivot
[1] 250

$mip.gap
absolute relative 
   1e-11    1e-11 

$negrange
[1] -1e+06

$obj.in.basis
[1] TRUE

$pivoting
[1] "devex"    "adaptive"

$presolve
[1] "none"

$scalelimit
[1] 5

$scaling
[1] "geometric"   "equilibrate" "integers"   

$sense
[1] "maximize"

$simplextype
[1] "dual"   "primal"

$timeout
[1] 0

$verbose
[1] "neutral"

set.objfn(lprec, c(275.691, 48.341))

1B) Add constrains

add.constraint(lprec, c(1, 1), "<=", 350000)
add.constraint(lprec, c(1, 0), ">=", 15000)
add.constraint(lprec, c(0, 1), ">=", 75000)
add.constraint(lprec, c(2, -1), "=", 0)

View the problem formulation in tabular/matrix form to confirm that the model was created correctly.

lprec

Model name: 
               C1       C2            
Maximize  275.691   48.341            
R1              1        1  <=  350000
R2              1        0  >=   15000
R3              0        1  >=   75000
R4              2       -1   =       0
Kind          Std      Std            
Type         Real     Real            
Upper         Inf      Inf            
Lower           0        0

1C) Solve the optimization problem

# solve 
solve(lprec)

[1] 0

Display the objective function optimum value

get.objective(lprec)

[1] 43443517

Display the variables optimum values

get.variables(lprec)

[1] 116666.7 233333.3

Task 2: Regression Analysis - Linear Regression

A linear model is of the form y = x0 + x1 + …+ x_n

2A) Read the csv file into R Studio and display the dataset.

Name your dataset ‘mydata’ so it easy to work with.
Commands: read_csv() head()

mydata = read.csv("data/ServersCost.csv")
head(mydata)

Extract the assigned features (columns) to perform some analytics.

servers = mydata$servers
cost = mydata$cost

2B) Create a correlation table for your to compare the correlations between all variables. What can you tell about the correlation between the variables.

cor(mydata)

           servers       cost
servers 1.00000000 0.03356606
cost    0.03356606 1.00000000

There is a positive correlation between servers and cost, however it is a very weak correlation.

2C) Create a plot for the dependent (y) and independent (x) variables. Note any patterns or relation between the two variables describe the trend line.

The blue line here represents the linear model we created and the black dots are the data points.

Commands: p <- qplot( x = INDEPENDENT, y = DEPENDENT, data = mydata) + geom_point()

library("plotly")

p = qplot( x = servers, y = cost, data = mydata) + geom_point()
p

Commmand: p + geom_smooth(method = “lm”)

Add a trend line plot using the a linear model

p1 = p + geom_smooth(method = "lm")
p1

The points in this linear model do not follow a linear pattern. They seem to better represent a quadratic function isntead of a linear function, therefore the slightly positive trend line for this linear model does not fit the data at all.

2D) Create a linear regression model by identifying the dependent variable (y) and independent variable (x_n)

Commands: linear_model <- lm( DEPENDENT ~ INDEPENDENT )

linear_model = lm( cost ~ servers )
linear_model


Call:
lm(formula = cost ~ servers)

Coefficients:
(Intercept)      servers  
      14747           48

Use the regression model to create a report. Note the R-Squared and Adjusted R-Squared values, determine if this is a good or bad fit for your data?

Commands: summary( linear_model )

summary(linear_model)


Call:
lm(formula = cost ~ servers)

Residuals:
     Min       1Q   Median       3Q      Max 
-10646.2  -8646.2   -544.7   7066.0  12858.8 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  14747.2     4035.5   3.654  0.00181 **
servers         48.0      336.9   0.142  0.88828   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8687 on 18 degrees of freedom
Multiple R-squared:  0.001127,  Adjusted R-squared:  -0.05437 
F-statistic: 0.0203 on 1 and 18 DF,  p-value: 0.8883

The R-squared value is 0.001127 and the adjusted R-squared is -0.05437. The extremely low R-squared and negative adjusted R-squared values indicate that this is a very poor model for the data.

Task 3: Regression Analysis - Non-linear Regression

We use a transformation and use a nonlinear quadratic model to see how the model fits to the data.
A quadratic model transforms the predictor by squaring it and adding to the model.
Quadratic Model: y = x + x^2

3A) Create a non-linear quadratic regression model by identifying the dependent variable (y) and independent variables (x). Transforms the independent variable by squaring it and adding to the model.

The Quadratic model formula is: y = x + x^2
Commands: quad_model <- lm(y ~ x + x_squared)
Commands: To squared a variable use (^) such as x^2

servers = mydata$servers
servers_squared = mydata$servers^2
quad_model = lm(cost ~ servers + servers_squared)
quad_model


Call:
lm(formula = cost ~ servers + servers_squared)

Coefficients:
    (Intercept)          servers  servers_squared  
        35417.8          -5589.4            268.4

Use the quadratic model to create a report. Note the R-Squared and Adjusted R-Squared values, determine if this is a good or bad fit for your data?

Commands: summary( quad_model )

summary(quad_model)


Call:
lm(formula = cost ~ servers + servers_squared)

Residuals:
    Min      1Q  Median      3Q     Max 
-2897.8 -1553.4  -513.2  1152.4  4752.7 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)     35417.77    1742.64   20.32 2.30e-13 ***
servers         -5589.43     382.19  -14.62 4.62e-11 ***
servers_squared   268.45      17.68   15.19 2.55e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2342 on 17 degrees of freedom
Multiple R-squared:  0.9314,    Adjusted R-squared:  0.9233 
F-statistic: 115.4 on 2 and 17 DF,  p-value: 1.282e-10

The R-square value is 0.9314 and the adjusted R-squared is 0.9233. Both of these values are positive and pretty close to 1, which indicates that this model is a good fit for the data.

3B) Compute the predicted values based on the quadratic model.

Commands: predicted_2 <- predict( quad_model, data = mydata )

servers2 = servers^2
quad_model = lm(cost ~ servers + servers2 ) 
predicted2 = predict(quad_model,data=mydata)
predicted2

        1         2         3         4         5         6         7         8 
30096.790 25312.706 21065.520 17355.233 14181.844 11545.354  9445.762  7883.068 
        9        10        11        12        13        14        15        16 
 6857.273  6368.376  6416.377  7001.277  8123.076  9781.772 11977.367 14709.861 
       17        18        19        20 
17979.252 21785.543 26128.731 31008.818

Create a plot using the quadratic model predicted values in color red. Noted the shape, looking at the plot is this a good or bad fit for your data?

Commands: qplot( x = DEPENDENT, y = INDEPENDENT/PREDICTED, colour = “red” )

qplot( x = servers, y = predicted2, colour = "red")

By looking at the shape of this model it seems like this would be a good fit for the data, because the predicted points seem to closely match the actual points.

3C) Create a non-linear cubic regression model by identifying the dependent variable (y) and independent variables (x). Transforms the independent variable by squaring it to second (x^2) and third )x^3) degrees and adding them to the model.

The Cubic model formula is: y = x + x^2 + x^3
Commands: cubic_model <- lm(y ~ x + x_squared + x_cubic)
Commands: To squared a variable use (^) such as x^2, x^3

servers_cubed = mydata$servers^3
cubic_model = lm(cost ~ servers + servers_squared + servers_cubed)
cubic_model


Call:
lm(formula = cost ~ servers + servers_squared + servers_cubed)

Coefficients:
    (Intercept)          servers  servers_squared    servers_cubed  
      36133.696        -5954.738          310.895           -1.347

Use the cubic model to create a report. Note the R-Squared and Adjusted R-Squared values, determine if this is a good or bad fit for your data?

Commands: summary( cubic_model )

summary(cubic_model)


Call:
lm(formula = cost ~ servers + servers_squared + servers_cubed)

Residuals:
    Min      1Q  Median      3Q     Max 
-2871.0 -1435.1  -473.6  1271.8  4600.3 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     36133.696   2625.976  13.760 2.77e-10 ***
servers         -5954.738   1056.596  -5.636 3.72e-05 ***
servers_squared   310.895    115.431   2.693    0.016 *  
servers_cubed      -1.347      3.619  -0.372    0.715    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2404 on 16 degrees of freedom
Multiple R-squared:  0.932, Adjusted R-squared:  0.9193 
F-statistic: 73.11 on 3 and 16 DF,  p-value: 1.478e-09

The R-squared value for this model is 0.932 and the adjusted R-squared is 0.9193. Based on these values, the model is also a good fit for the data.

3D) Compute the predicted values based on the cubic model.

Commands: predicted3 <- predict( cubic_model, data = mydata )

predicted3 = predict( cubic_model, data = mydata)

Create a plot using the cubic model predicted values in color green. Noted the shape, looking at the plot is this a good or bad fit for your data? Is this model better than the previous?

Commands: qplot( x = DEPENDENT, y = INDEPENDENT/PREDICTED, colour = “red” )

qplot( x = servers, y = predicted3, colour = "red")

Based on this plot using the cubic model, it appears to be a good fit for the data as well. The R-squared and adjusted R-squared values for the cubic model are slightly higher than the R-squared and adjusted R-squared values for the quadratic model, so overall I would say that the cubic model is better. However, the difference between them is so small that it would be okay to use either model for this data.

3E) Overlay the all models on top of the data. Which model seems to fit the best in your opinion? Justify your answer.

variables: LINEAR_MODEL , PREDICTED_QUADRATIC, PREDICTED_CUBIC

# Black = Actual Data
plot(servers, cost, pch = 16) 
# Blue = Linear Line based on Linear Regression Model
abline(linear_model, col = "blue", lwd = 2)

# Red = Quadratic Model based on Quadratric Regression found above
# Needed to overlay new points without the labels and annotations
par(new = TRUE, xaxt = "n", yaxt = "n", ann = FALSE) 
plot(predicted2, col = "red", pch = 16)

# Green = Cubic Model based on Cubic Regression found above
# Overlay new points without the labels and annotations 
par(new = TRUE, xaxt = "n", yaxt = "n", ann = FALSE) 
plot(predicted3, col = "green", pch = 16)

In my opinion, the cubic model (predicted 3 model) is the best fit for the data because it’s predicted values are the closest to matching the actual values. The quadratic model is very similar to the cubic model so it would be okay to use that one as well, but I would still choose the cubic model. Obviously, the linear model is the worst fit so that should not be used at all.

LS0tCnRpdGxlOiAiQnVzaW5lc3MgQW5hbHl0aWNzIExhYiBXb3Jrc2hlZXQgMDciCmF1dGhvcjogIkNhbWVyb24gR2VyaGFydCIKZGF0ZTogIk1hcmNoIDI5LCAyMDE4IgpvdXRwdXQ6CiAgaHRtbF9ub3RlYm9vazogZGVmYXVsdAogIGh0bWxfZG9jdW1lbnQ6IGRlZmF1bHQKICBwZGZfZG9jdW1lbnQ6IGRlZmF1bHQKc3VidGl0bGU6IENNRSBHcm91cCBGb3VuZGF0aW9uIEJ1c2luZXNzIEFuYWx5dGljcyBMYWIKLS0tCgotLS0tLS0tLS0tLS0tCgojIyBOb3RlYm9vayBJbnN0cnVjdGlvbnMKCi0tLS0tLS0tLS0tLS0KCiMjIyBBYm91dAoKKiBJbiB0aGlzIGxhYiwgd2Ugd2lsbCBmb2N1cyBvbiBsaW5lYXIgYW5kIG5vbi1saW5lYXIgcHJvZ3JhbW1pbmcuIAoKKiBMaW5lYXIgcHJvZ3JhbW1pbmcsIGFzIGRpc2N1c3NlZCBpbiB0aGUgcHJldmlvdXMgbGFiLCB3b3JrcyB3aXRoIHNpbXBsZSBhbmQgbXVsdGlwbGUgbGluZWFyIHJlZ3Jlc3Npb24gdGVjaG5pcXVlczsgc29tZXRpbWVzIHRoZSB2YXJpYWJsZXMgaGF2ZSBjb21wbGV0ZWx5IGRpcmVjdCBvciBjb21wbGV0ZWx5IG5vbi1kaXJlY3QgcmVsYXRpb25zaGlwcyBhbmQgdGhlc2UgdGVjaG5pcXVlcyBjYW4gbW9kZWwgdGhlbS4KCiogU29tZXRpbWVzLCBob3dldmVyLCB0aGUgdmFyaWFibGVzIGRvIG5vdCBwcmVkaWN0IGVhY2ggb3RoZXIgaW4gYSBsaW5lYXIgd2F5LiBGb3IgZXhhbXBsZSwgbG9va2luZyBhdCB0aGUgc3RvY2sgbWFya2V0IHZzLiB0aW1lLCB3ZSBrbm93IHRoYXQgZ2VuZXJhbGx5IHRoZSBtYXJrZXQgd2FzIGJvb21pbmcgYmVmb3JlIHRoZSBjcmFzaCwgdGhlbiB0aGUgbWFya2V0IGNyYXNoZWQgYW5kIHRoZSBncmVhdCBkZXByZXNzaW9uIGhpdCwgYW5kIHNsb3dseSB0aGUgbWFya2V0IHN0YXJ0ZWQgdG8gcmlzZSBhZ2Fpbi4gCgoqIFRoaXMgcGF0dGVybiBpcyBub3QgbGluZWFyLCBhbmQgaW4gZmFjdCBhIG5vbi1saW5lYXIgcHJvZ3JhbW1pbmcgdGVjaG5pcXVlIGNhbiBiZSB1c2VkIHRvIG1vZGVsIGl0IGFuZCBwcmVkaWN0IHRoZSB2YWx1ZSBvZiB0aGUgbWFya2V0IGJhc2VkIG9uIHRoZSB5ZWFyLiAKCiogSW4gdGhpcyBsYWIsIHdlIHdpbGwgZXhwbG9yZSB0b3BpY3MgbGlrZSBvcHRpbWl6YXRpb24sIHNvbHZlIGEgbWFya2V0aW5nIG1vZGVsLCBhbmQgcGVyZm9ybSBsaW5lYXIgYW5kIG5vbi1saW5lYXIgcmVncmVzc2lvbiBvbiB0aGUgY29zdCBvZiBzZXJ2ZXJzLgoKCiMjIyBMb2FkIFBhY2thZ2VzIGluIFIvUlN0dWRpbyAKCldlIGFyZSBnb2luZyB0byB1c2UgdGlkeXZlcnNlIGEgY29sbGVjdGlvbiBvZiBSIHBhY2thZ2VzIGRlc2lnbmVkIGZvciBkYXRhIHNjaWVuY2UuIAoKKiBJbmZvOiBodHRwczovL3d3dy50aWR5dmVyc2Uub3JnLwoKYGBge3IsIGVjaG8gPSBGQUxTRX0KCiMgSGVyZSB3ZSBhcmUgY2hlY2tpbmcgaWYgdGhlIHBhY2thZ2UgaXMgaW5zdGFsbGVkCmlmKCFyZXF1aXJlKCJscFNvbHZlQVBJIikpewogIAogICMgSWYgdGhlIHBhY2thZ2UgaXMgbm90IGluIHRoZSBzeXN0ZW0gdGhlbiBpdCB3aWxsIGJlIGluc3RhbGwKICBpbnN0YWxsLnBhY2thZ2VzKCJscFNvbHZlQVBJIiwgZGVwZW5kZW5jaWVzID0gVFJVRSkKICAKICAjIEhlcmUgd2UgYXJlIGxvYWRpbmcgdGhlIHBhY2thZ2UKICBsaWJyYXJ5KCJscFNvbHZlQVBJIikKfQoKYGBgCgoKLS0tLS0tLS0tLS0tLQoKIyMgVGFzayAxOiBMaW5lYXIgUHJvZ3JhbW1pbmcgLSBTb2x2aW5nIE1hcmtldGluZyBNb2RlbAoKLS0tLS0tLS0tLS0tLQoKIyMjIDFBKSBDcmVhdGUgdGhlIG1vZGVsIG9iamVjdCBpbiBSLgoKYGBge3J9CgpscHJlYyA8LSBtYWtlLmxwKDAsIDIpIAoKYGBgCgojIyMjIFNldCB0aGUgY29uc3RyYWlucyBhbmQgb2JqZWN0aXZlIGZ1bmN0aW9uIGZvciB0aGUgbW9kZWwuCgoqIFNldCBmb3IgbWF4aW11bQpgYGB7cn0KCmxwLmNvbnRyb2wobHByZWMsIHNlbnNlPSJtYXgiKSAgCnNldC5vYmpmbihscHJlYywgYygyNzUuNjkxLCA0OC4zNDEpKQoKYGBgCgojIyMgMUIpIEFkZCBjb25zdHJhaW5zCgpgYGB7cn0KCmFkZC5jb25zdHJhaW50KGxwcmVjLCBjKDEsIDEpLCAiPD0iLCAzNTAwMDApCmFkZC5jb25zdHJhaW50KGxwcmVjLCBjKDEsIDApLCAiPj0iLCAxNTAwMCkKYWRkLmNvbnN0cmFpbnQobHByZWMsIGMoMCwgMSksICI+PSIsIDc1MDAwKQphZGQuY29uc3RyYWludChscHJlYywgYygyLCAtMSksICI9IiwgMCkKCmBgYAoKIyMjIyBWaWV3IHRoZSBwcm9ibGVtIGZvcm11bGF0aW9uIGluIHRhYnVsYXIvbWF0cml4IGZvcm0gdG8gY29uZmlybSB0aGF0IHRoZSBtb2RlbCB3YXMgY3JlYXRlZCBjb3JyZWN0bHkuCgpgYGB7cn0KCmxwcmVjCgpgYGAKCiMjIyAxQykgU29sdmUgdGhlIG9wdGltaXphdGlvbiBwcm9ibGVtCmBgYHtyfQojIHNvbHZlIApzb2x2ZShscHJlYykgCgpgYGAKCiMjIyMgRGlzcGxheSB0aGUgb2JqZWN0aXZlIGZ1bmN0aW9uIG9wdGltdW0gdmFsdWUKYGBge3J9CgpnZXQub2JqZWN0aXZlKGxwcmVjKQoKYGBgCgojIyMjIERpc3BsYXkgdGhlIHZhcmlhYmxlcyBvcHRpbXVtIHZhbHVlcwpgYGB7cn0KCmdldC52YXJpYWJsZXMobHByZWMpIAoKYGBgCgotLS0tLS0tLS0tLS0tCgojIyBUYXNrIDI6IFJlZ3Jlc3Npb24gQW5hbHlzaXMgLSBMaW5lYXIgUmVncmVzc2lvbgoKLS0tLS0tLS0tLS0tLQoKKiBBIGxpbmVhciBtb2RlbCBpcyBvZiB0aGUgZm9ybSB5ID0geDAgKyB4MSArIC4uLisgeF9uCgojIyMgMkEpIFJlYWQgdGhlIGNzdiBmaWxlIGludG8gUiBTdHVkaW8gYW5kIGRpc3BsYXkgdGhlIGRhdGFzZXQuIAoKKiBOYW1lIHlvdXIgZGF0YXNldCAnbXlkYXRhJyBzbyBpdCBlYXN5IHRvIHdvcmsgd2l0aC4KCiogQ29tbWFuZHM6IHJlYWRfY3N2KCkgaGVhZCgpCgpgYGB7cn0KbXlkYXRhID0gcmVhZC5jc3YoImRhdGEvU2VydmVyc0Nvc3QuY3N2IikKaGVhZChteWRhdGEpCmBgYAoKIyMjIyBFeHRyYWN0IHRoZSBhc3NpZ25lZCBmZWF0dXJlcyAoY29sdW1ucykgdG8gcGVyZm9ybSBzb21lIGFuYWx5dGljcy4gCmBgYHtyfQpzZXJ2ZXJzID0gbXlkYXRhJHNlcnZlcnMKY29zdCA9IG15ZGF0YSRjb3N0CmBgYAoKIyMjIDJCKSBDcmVhdGUgYSBjb3JyZWxhdGlvbiB0YWJsZSBmb3IgeW91ciB0byBjb21wYXJlIHRoZSBjb3JyZWxhdGlvbnMgYmV0d2VlbiBhbGwgdmFyaWFibGVzLiBXaGF0IGNhbiB5b3UgdGVsbCBhYm91dCB0aGUgY29ycmVsYXRpb24gYmV0d2VlbiB0aGUgdmFyaWFibGVzLiAgCgpgYGB7cn0KY29yKG15ZGF0YSkKYGBgClRoZXJlIGlzIGEgcG9zaXRpdmUgY29ycmVsYXRpb24gYmV0d2VlbiBzZXJ2ZXJzIGFuZCBjb3N0LCBob3dldmVyIGl0IGlzIGEgdmVyeSB3ZWFrIGNvcnJlbGF0aW9uLgoKIyMjIDJDKSBDcmVhdGUgYSBwbG90IGZvciB0aGUgZGVwZW5kZW50ICh5KSBhbmQgaW5kZXBlbmRlbnQgKHgpIHZhcmlhYmxlcy4gTm90ZSBhbnkgcGF0dGVybnMgb3IgcmVsYXRpb24gYmV0d2VlbiB0aGUgdHdvIHZhcmlhYmxlcyBkZXNjcmliZSB0aGUgdHJlbmQgbGluZS4KCiogVGhlIGJsdWUgbGluZSBoZXJlIHJlcHJlc2VudHMgdGhlIGxpbmVhciBtb2RlbCB3ZSBjcmVhdGVkIGFuZCB0aGUgYmxhY2sgZG90cyBhcmUgdGhlIGRhdGEgcG9pbnRzLiAKCkNvbW1hbmRzOiBwIDwtIHFwbG90KCB4ID0gSU5ERVBFTkRFTlQsIHkgPSBERVBFTkRFTlQsIGRhdGEgPSBteWRhdGEpICsgZ2VvbV9wb2ludCgpCmBgYHtyfQpsaWJyYXJ5KCJwbG90bHkiKQpgYGAKCgpgYGB7cn0KcCA9IHFwbG90KCB4ID0gc2VydmVycywgeSA9IGNvc3QsIGRhdGEgPSBteWRhdGEpICsgZ2VvbV9wb2ludCgpCnAKYGBgCgpDb21tbWFuZDogcCArIGdlb21fc21vb3RoKG1ldGhvZCA9ICJsbSIpCgojIyMjIEFkZCBhIHRyZW5kIGxpbmUgcGxvdCB1c2luZyB0aGUgYSBsaW5lYXIgbW9kZWwKYGBge3J9CnAxID0gcCArIGdlb21fc21vb3RoKG1ldGhvZCA9ICJsbSIpCnAxCmBgYApUaGUgcG9pbnRzIGluIHRoaXMgbGluZWFyIG1vZGVsIGRvIG5vdCBmb2xsb3cgYSBsaW5lYXIgcGF0dGVybi4gVGhleSBzZWVtIHRvIGJldHRlciByZXByZXNlbnQgYSBxdWFkcmF0aWMgZnVuY3Rpb24gaXNudGVhZCBvZiBhIGxpbmVhciBmdW5jdGlvbiwgdGhlcmVmb3JlIHRoZSBzbGlnaHRseSBwb3NpdGl2ZSB0cmVuZCBsaW5lIGZvciB0aGlzIGxpbmVhciBtb2RlbCBkb2VzIG5vdCBmaXQgdGhlIGRhdGEgYXQgYWxsLiAKCiMjIyAyRCkgQ3JlYXRlIGEgbGluZWFyIHJlZ3Jlc3Npb24gbW9kZWwgYnkgaWRlbnRpZnlpbmcgdGhlIGRlcGVuZGVudCB2YXJpYWJsZSAoeSkgYW5kIGluZGVwZW5kZW50IHZhcmlhYmxlICh4X24pCgoqIENvbW1hbmRzOiBsaW5lYXJfbW9kZWwgPC0gbG0oIERFUEVOREVOVCB+IElOREVQRU5ERU5UICkgCgpgYGB7cn0KbGluZWFyX21vZGVsID0gbG0oIGNvc3QgfiBzZXJ2ZXJzICkKbGluZWFyX21vZGVsCmBgYAoKIyMjIyBVc2UgdGhlIHJlZ3Jlc3Npb24gbW9kZWwgdG8gY3JlYXRlIGEgcmVwb3J0LiBOb3RlIHRoZSBSLVNxdWFyZWQgYW5kIEFkanVzdGVkIFItU3F1YXJlZCB2YWx1ZXMsIGRldGVybWluZSBpZiB0aGlzIGlzIGEgZ29vZCBvciBiYWQgZml0IGZvciB5b3VyIGRhdGE/CgoqIENvbW1hbmRzOiBzdW1tYXJ5KCBsaW5lYXJfbW9kZWwgKQoKYGBge3J9CnN1bW1hcnkobGluZWFyX21vZGVsKQpgYGAKVGhlIFItc3F1YXJlZCB2YWx1ZSBpcyAwLjAwMTEyNyBhbmQgdGhlIGFkanVzdGVkIFItc3F1YXJlZCBpcyAtMC4wNTQzNy4gVGhlIGV4dHJlbWVseSBsb3cgUi1zcXVhcmVkIGFuZCBuZWdhdGl2ZSBhZGp1c3RlZCBSLXNxdWFyZWQgdmFsdWVzIGluZGljYXRlIHRoYXQgdGhpcyBpcyBhIHZlcnkgcG9vciBtb2RlbCBmb3IgdGhlIGRhdGEuIAoKLS0tLS0tLS0tLS0tLQoKIyMgVGFzayAzOiBSZWdyZXNzaW9uIEFuYWx5c2lzIC0gTm9uLWxpbmVhciBSZWdyZXNzaW9uCgotLS0tLS0tLS0tLS0tCgoqIFdlIHVzZSBhIHRyYW5zZm9ybWF0aW9uIGFuZCB1c2UgYSBub25saW5lYXIgcXVhZHJhdGljIG1vZGVsIHRvIHNlZSBob3cgdGhlIG1vZGVsIGZpdHMgdG8gdGhlIGRhdGEuCgoqIEEgcXVhZHJhdGljIG1vZGVsIHRyYW5zZm9ybXMgdGhlIHByZWRpY3RvciBieSBzcXVhcmluZyBpdCBhbmQgYWRkaW5nIHRvIHRoZSBtb2RlbC4gCiogUXVhZHJhdGljIE1vZGVsOiB5ID0geCArIHheMgoKIyMjIDNBKSBDcmVhdGUgYSBub24tbGluZWFyIHF1YWRyYXRpYyByZWdyZXNzaW9uIG1vZGVsIGJ5IGlkZW50aWZ5aW5nIHRoZSBkZXBlbmRlbnQgdmFyaWFibGUgKHkpIGFuZCBpbmRlcGVuZGVudCB2YXJpYWJsZXMgKHgpLiBUcmFuc2Zvcm1zIHRoZSBpbmRlcGVuZGVudCB2YXJpYWJsZSBieSBzcXVhcmluZyBpdCBhbmQgYWRkaW5nIHRvIHRoZSBtb2RlbC4gCgoqIFRoZSBRdWFkcmF0aWMgbW9kZWwgZm9ybXVsYSBpczogeSA9IHggKyB4XjIKKiBDb21tYW5kczogcXVhZF9tb2RlbCA8LSBsbSh5IH4geCArIHhfc3F1YXJlZCkKKiBDb21tYW5kczogVG8gc3F1YXJlZCBhIHZhcmlhYmxlIHVzZSAoXikgc3VjaCBhcyAgeF4yCgpgYGB7cn0Kc2VydmVycyA9IG15ZGF0YSRzZXJ2ZXJzCnNlcnZlcnNfc3F1YXJlZCA9IG15ZGF0YSRzZXJ2ZXJzXjIKCnF1YWRfbW9kZWwgPSBsbShjb3N0IH4gc2VydmVycyArIHNlcnZlcnNfc3F1YXJlZCkKcXVhZF9tb2RlbAoKYGBgCgojIyMjIFVzZSB0aGUgcXVhZHJhdGljIG1vZGVsIHRvIGNyZWF0ZSBhIHJlcG9ydC4gTm90ZSB0aGUgUi1TcXVhcmVkIGFuZCBBZGp1c3RlZCBSLVNxdWFyZWQgdmFsdWVzLCBkZXRlcm1pbmUgaWYgdGhpcyBpcyBhIGdvb2Qgb3IgYmFkIGZpdCBmb3IgeW91ciBkYXRhPwoKKiBDb21tYW5kczogc3VtbWFyeSggcXVhZF9tb2RlbCApCgpgYGB7cn0Kc3VtbWFyeShxdWFkX21vZGVsKQpgYGAKVGhlIFItc3F1YXJlIHZhbHVlIGlzIDAuOTMxNCBhbmQgdGhlIGFkanVzdGVkIFItc3F1YXJlZCBpcyAwLjkyMzMuIEJvdGggb2YgdGhlc2UgdmFsdWVzIGFyZSBwb3NpdGl2ZSBhbmQgcHJldHR5IGNsb3NlIHRvIDEsIHdoaWNoIGluZGljYXRlcyB0aGF0IHRoaXMgbW9kZWwgaXMgYSBnb29kIGZpdCBmb3IgdGhlIGRhdGEuIAoKIyMjIDNCKSBDb21wdXRlIHRoZSBwcmVkaWN0ZWQgdmFsdWVzIGJhc2VkIG9uIHRoZSBxdWFkcmF0aWMgbW9kZWwuCgpDb21tYW5kczogcHJlZGljdGVkXzIgPC0gcHJlZGljdCggcXVhZF9tb2RlbCwgZGF0YSA9IG15ZGF0YSApCgpgYGB7cn0Kc2VydmVyczIgPSBzZXJ2ZXJzXjIKcXVhZF9tb2RlbCA9IGxtKGNvc3QgfiBzZXJ2ZXJzICsgc2VydmVyczIgKSAKcHJlZGljdGVkMiA9IHByZWRpY3QocXVhZF9tb2RlbCxkYXRhPW15ZGF0YSkKcHJlZGljdGVkMgpgYGAKCiMjIyMgQ3JlYXRlIGEgcGxvdCB1c2luZyB0aGUgcXVhZHJhdGljIG1vZGVsIHByZWRpY3RlZCB2YWx1ZXMgaW4gY29sb3IgcmVkLiBOb3RlZCB0aGUgc2hhcGUsIGxvb2tpbmcgYXQgdGhlIHBsb3QgaXMgdGhpcyBhIGdvb2Qgb3IgYmFkIGZpdCBmb3IgeW91ciBkYXRhPwoKQ29tbWFuZHM6IHFwbG90KCB4ID0gREVQRU5ERU5ULCB5ID0gSU5ERVBFTkRFTlQvUFJFRElDVEVELCBjb2xvdXIgPSAicmVkIiApCgpgYGB7cn0KCnFwbG90KCB4ID0gc2VydmVycywgeSA9IHByZWRpY3RlZDIsIGNvbG91ciA9ICJyZWQiKQoKYGBgCkJ5IGxvb2tpbmcgYXQgdGhlIHNoYXBlIG9mIHRoaXMgbW9kZWwgaXQgc2VlbXMgbGlrZSB0aGlzIHdvdWxkIGJlIGEgZ29vZCBmaXQgZm9yIHRoZSBkYXRhLCBiZWNhdXNlIHRoZSBwcmVkaWN0ZWQgcG9pbnRzIHNlZW0gdG8gY2xvc2VseSBtYXRjaCB0aGUgYWN0dWFsIHBvaW50cy4gCgojIyMgM0MpIENyZWF0ZSBhIG5vbi1saW5lYXIgY3ViaWMgcmVncmVzc2lvbiBtb2RlbCBieSBpZGVudGlmeWluZyB0aGUgZGVwZW5kZW50IHZhcmlhYmxlICh5KSBhbmQgaW5kZXBlbmRlbnQgdmFyaWFibGVzICh4KS4gVHJhbnNmb3JtcyB0aGUgaW5kZXBlbmRlbnQgdmFyaWFibGUgYnkgc3F1YXJpbmcgaXQgdG8gc2Vjb25kICh4XjIpIGFuZCB0aGlyZCApeF4zKSBkZWdyZWVzIGFuZCBhZGRpbmcgdGhlbSB0byB0aGUgbW9kZWwuIAoKKiBUaGUgQ3ViaWMgbW9kZWwgZm9ybXVsYSBpczogeSA9IHggKyB4XjIgKyB4XjMKKiBDb21tYW5kczogY3ViaWNfbW9kZWwgPC0gbG0oeSB+IHggKyB4X3NxdWFyZWQgKyB4X2N1YmljKQoqIENvbW1hbmRzOiBUbyBzcXVhcmVkIGEgdmFyaWFibGUgdXNlICheKSBzdWNoIGFzICB4XjIsIHheMwoKYGBge3J9CnNlcnZlcnNfY3ViZWQgPSBteWRhdGEkc2VydmVyc14zCmN1YmljX21vZGVsID0gbG0oY29zdCB+IHNlcnZlcnMgKyBzZXJ2ZXJzX3NxdWFyZWQgKyBzZXJ2ZXJzX2N1YmVkKQpjdWJpY19tb2RlbApgYGAKCiMjIyMgVXNlIHRoZSBjdWJpYyBtb2RlbCB0byBjcmVhdGUgYSByZXBvcnQuIE5vdGUgdGhlIFItU3F1YXJlZCBhbmQgQWRqdXN0ZWQgUi1TcXVhcmVkIHZhbHVlcywgZGV0ZXJtaW5lIGlmIHRoaXMgaXMgYSBnb29kIG9yIGJhZCBmaXQgZm9yIHlvdXIgZGF0YT8KCiogQ29tbWFuZHM6IHN1bW1hcnkoIGN1YmljX21vZGVsICkKCmBgYHtyfQpzdW1tYXJ5KGN1YmljX21vZGVsKQpgYGAKVGhlIFItc3F1YXJlZCB2YWx1ZSBmb3IgdGhpcyBtb2RlbCBpcyAwLjkzMiBhbmQgdGhlIGFkanVzdGVkIFItc3F1YXJlZCBpcyAwLjkxOTMuIEJhc2VkIG9uIHRoZXNlIHZhbHVlcywgdGhlIG1vZGVsIGlzIGFsc28gYSBnb29kIGZpdCBmb3IgdGhlIGRhdGEuIAoKIyMjIDNEKSBDb21wdXRlIHRoZSBwcmVkaWN0ZWQgdmFsdWVzIGJhc2VkIG9uIHRoZSBjdWJpYyBtb2RlbC4KCkNvbW1hbmRzOiBwcmVkaWN0ZWQzIDwtIHByZWRpY3QoIGN1YmljX21vZGVsLCBkYXRhID0gbXlkYXRhICkKCmBgYHtyfQpwcmVkaWN0ZWQzID0gcHJlZGljdCggY3ViaWNfbW9kZWwsIGRhdGEgPSBteWRhdGEpCmBgYAoKIyMjIyBDcmVhdGUgYSBwbG90IHVzaW5nIHRoZSBjdWJpYyBtb2RlbCBwcmVkaWN0ZWQgdmFsdWVzIGluIGNvbG9yIGdyZWVuLiBOb3RlZCB0aGUgc2hhcGUsIGxvb2tpbmcgYXQgdGhlIHBsb3QgaXMgdGhpcyBhIGdvb2Qgb3IgYmFkIGZpdCBmb3IgeW91ciBkYXRhPyBJcyB0aGlzIG1vZGVsIGJldHRlciB0aGFuIHRoZSBwcmV2aW91cz8KCkNvbW1hbmRzOiBxcGxvdCggeCA9IERFUEVOREVOVCwgeSA9IElOREVQRU5ERU5UL1BSRURJQ1RFRCwgY29sb3VyID0gInJlZCIgKQoKYGBge3J9CnFwbG90KCB4ID0gc2VydmVycywgeSA9IHByZWRpY3RlZDMsIGNvbG91ciA9ICJyZWQiKQpgYGAKQmFzZWQgb24gdGhpcyBwbG90IHVzaW5nIHRoZSBjdWJpYyBtb2RlbCwgaXQgYXBwZWFycyB0byBiZSBhIGdvb2QgZml0IGZvciB0aGUgZGF0YSBhcyB3ZWxsLiBUaGUgUi1zcXVhcmVkIGFuZCBhZGp1c3RlZCBSLXNxdWFyZWQgdmFsdWVzIGZvciB0aGUgY3ViaWMgbW9kZWwgYXJlIHNsaWdodGx5IGhpZ2hlciB0aGFuIHRoZSBSLXNxdWFyZWQgYW5kIGFkanVzdGVkIFItc3F1YXJlZCB2YWx1ZXMgZm9yIHRoZSBxdWFkcmF0aWMgbW9kZWwsIHNvIG92ZXJhbGwgSSB3b3VsZCBzYXkgdGhhdCB0aGUgY3ViaWMgbW9kZWwgaXMgYmV0dGVyLiBIb3dldmVyLCB0aGUgZGlmZmVyZW5jZSBiZXR3ZWVuIHRoZW0gaXMgc28gc21hbGwgdGhhdCBpdCB3b3VsZCBiZSBva2F5IHRvIHVzZSBlaXRoZXIgbW9kZWwgZm9yIHRoaXMgZGF0YS4gCgojIyMgM0UpIE92ZXJsYXkgdGhlIGFsbCBtb2RlbHMgb24gdG9wIG9mIHRoZSBkYXRhLiBXaGljaCBtb2RlbCBzZWVtcyB0byBmaXQgdGhlIGJlc3QgaW4geW91ciBvcGluaW9uPyBKdXN0aWZ5IHlvdXIgYW5zd2VyLiAKCnZhcmlhYmxlczogTElORUFSX01PREVMICwgUFJFRElDVEVEX1FVQURSQVRJQywgUFJFRElDVEVEX0NVQklDCgpgYGB7cn0KCiMgQmxhY2sgPSBBY3R1YWwgRGF0YQpwbG90KHNlcnZlcnMsIGNvc3QsIHBjaCA9IDE2KSAKIyBCbHVlID0gTGluZWFyIExpbmUgYmFzZWQgb24gTGluZWFyIFJlZ3Jlc3Npb24gTW9kZWwKYWJsaW5lKGxpbmVhcl9tb2RlbCwgY29sID0gImJsdWUiLCBsd2QgPSAyKSAKCiMgUmVkID0gUXVhZHJhdGljIE1vZGVsIGJhc2VkIG9uIFF1YWRyYXRyaWMgUmVncmVzc2lvbiBmb3VuZCBhYm92ZQojIE5lZWRlZCB0byBvdmVybGF5IG5ldyBwb2ludHMgd2l0aG91dCB0aGUgbGFiZWxzIGFuZCBhbm5vdGF0aW9ucwpwYXIobmV3ID0gVFJVRSwgeGF4dCA9ICJuIiwgeWF4dCA9ICJuIiwgYW5uID0gRkFMU0UpIApwbG90KHByZWRpY3RlZDIsIGNvbCA9ICJyZWQiLCBwY2ggPSAxNikgCgojIEdyZWVuID0gQ3ViaWMgTW9kZWwgYmFzZWQgb24gQ3ViaWMgUmVncmVzc2lvbiBmb3VuZCBhYm92ZQojIE92ZXJsYXkgbmV3IHBvaW50cyB3aXRob3V0IHRoZSBsYWJlbHMgYW5kIGFubm90YXRpb25zIApwYXIobmV3ID0gVFJVRSwgeGF4dCA9ICJuIiwgeWF4dCA9ICJuIiwgYW5uID0gRkFMU0UpIApwbG90KHByZWRpY3RlZDMsIGNvbCA9ICJncmVlbiIsIHBjaCA9IDE2KQoKYGBgCkluIG15IG9waW5pb24sIHRoZSBjdWJpYyBtb2RlbCAocHJlZGljdGVkIDMgbW9kZWwpIGlzIHRoZSBiZXN0IGZpdCBmb3IgdGhlIGRhdGEgYmVjYXVzZSBpdCdzIHByZWRpY3RlZCB2YWx1ZXMgYXJlIHRoZSBjbG9zZXN0IHRvIG1hdGNoaW5nIHRoZSBhY3R1YWwgdmFsdWVzLiBUaGUgcXVhZHJhdGljIG1vZGVsIGlzIHZlcnkgc2ltaWxhciB0byB0aGUgY3ViaWMgbW9kZWwgc28gaXQgd291bGQgYmUgb2theSB0byB1c2UgdGhhdCBvbmUgYXMgd2VsbCwgYnV0IEkgd291bGQgc3RpbGwgY2hvb3NlIHRoZSBjdWJpYyBtb2RlbC4gT2J2aW91c2x5LCB0aGUgbGluZWFyIG1vZGVsIGlzIHRoZSB3b3JzdCBmaXQgc28gdGhhdCBzaG91bGQgbm90IGJlIHVzZWQgYXQgYWxsLiAK

Business Analytics Lab Worksheet 07

CME Group Foundation Business Analytics Lab

Cameron Gerhart

March 29, 2018

Notebook Instructions

About

Load Packages in R/RStudio

Task 1: Linear Programming - Solving Marketing Model

1A) Create the model object in R.

Set the constrains and objective function for the model.

1B) Add constrains

View the problem formulation in tabular/matrix form to confirm that the model was created correctly.

1C) Solve the optimization problem

Display the objective function optimum value

Display the variables optimum values

Task 2: Regression Analysis - Linear Regression

2A) Read the csv file into R Studio and display the dataset.

Extract the assigned features (columns) to perform some analytics.

2B) Create a correlation table for your to compare the correlations between all variables. What can you tell about the correlation between the variables.

2C) Create a plot for the dependent (y) and independent (x) variables. Note any patterns or relation between the two variables describe the trend line.

Add a trend line plot using the a linear model

2D) Create a linear regression model by identifying the dependent variable (y) and independent variable (x_n)

Use the regression model to create a report. Note the R-Squared and Adjusted R-Squared values, determine if this is a good or bad fit for your data?

Task 3: Regression Analysis - Non-linear Regression

3A) Create a non-linear quadratic regression model by identifying the dependent variable (y) and independent variables (x). Transforms the independent variable by squaring it and adding to the model.

Use the quadratic model to create a report. Note the R-Squared and Adjusted R-Squared values, determine if this is a good or bad fit for your data?

3B) Compute the predicted values based on the quadratic model.

Create a plot using the quadratic model predicted values in color red. Noted the shape, looking at the plot is this a good or bad fit for your data?

3C) Create a non-linear cubic regression model by identifying the dependent variable (y) and independent variables (x). Transforms the independent variable by squaring it to second (x^2) and third )x^3) degrees and adding them to the model.

Use the cubic model to create a report. Note the R-Squared and Adjusted R-Squared values, determine if this is a good or bad fit for your data?

3D) Compute the predicted values based on the cubic model.

Create a plot using the cubic model predicted values in color green. Noted the shape, looking at the plot is this a good or bad fit for your data? Is this model better than the previous?

3E) Overlay the all models on top of the data. Which model seems to fit the best in your opinion? Justify your answer.