Notebook Instructions

For your assignment you may be using different dataset than what is included here.
Always read carefully the instructions on Sakai.
Tasks/questions to be completed/answered are highlighted in larger bolded fonts and numbered according to the task section.

Task 1

Installing packages in R/RStudio.

We are going to use tidyverse a collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures. *Info:* https://www.tidyverse.org/

Loading required package: tidyverse
[30m-- [1mAttaching packages[22m --------------------------------------- tidyverse 1.2.1 --[39m
[30m[32mv[30m [34mggplot2[30m 2.2.1     [32mv[30m [34mpurrr  [30m 0.2.4
[32mv[30m [34mtibble [30m 1.4.2     [32mv[30m [34mdplyr  [30m 0.7.4
[32mv[30m [34mtidyr  [30m 0.7.2     [32mv[30m [34mstringr[30m 1.2.0
[32mv[30m [34mreadr  [30m 1.1.1     [32mv[30m [34mforcats[30m 0.2.0[39m
[30m-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[30m [34mdplyr[30m::[32mfilter()[30m masks [34mstats[30m::filter()
[31mx[30m [34mdplyr[30m::[32mlag()[30m    masks [34mstats[30m::lag()[39m

1A) Read the csv file into R Studio and display the dataset.

Name your dataset ‘mydata’ so it easy to work with.
Commands: read_csv() head()

mydata= read_csv("C:\\Users\\hp\\Documents\\Spring 2018\\BSAD 343H\\Labs\\Lab 1\\01-notebook-lab\\Scoring.csv")

Parsed with column specification:
cols(
  Status = col_character(),
  Seniority = col_integer(),
  Home = col_character(),
  Time = col_integer(),
  Age = col_integer(),
  Marital = col_character(),
  Records = col_character(),
  Job = col_character(),
  Expenses = col_integer(),
  Income = col_integer(),
  Assets = col_integer(),
  Debt = col_integer(),
  Amount = col_character(),
  Price = col_character(),
  Finrat = col_double(),
  Savings = col_double()
)

head(mydata)

Extract the assigned features (columns) to perform some analytics

To extract the features (columns) from the dataset, use the name of the dataset follow by ‘$’ sign and the name the specific column.

Extract the first feature (column)

#Extracting the Checking Column
Expenses = mydata$Expenses 
#Calling the Checking Column
Expenses [1:10]

 [1] 73 48 90 63 46 75 75 35 90 90

Now, use the same procedure to extract the other feature

#Extracting the feature (column)
Savings = mydata$Savings
#Calling the  feature (column)
Savings [1:10]

 [1]  4.200000  4.980000  1.980000  7.933333  7.083871 12.830769  1.875000  2.700000
 [9]  0.850000 -0.400000

1B) Compute the mean and standard deviation of the assigned features (columns)

Commands: mean() sd()
Use the mean() function on feature to calculate the average
Name the result mean and the feature name. For example meanChecking

# Calculate the feature average
meanExpenses = mean(Expenses)
# Inspect the variable with the calculated mean
meanExpenses

[1] 55.60144

Repeat the same procedure for the other feature

# Calculate the feature average
meanSavings = mean(Savings)
# Inspect the variable with the calculated mean
meanSavings

[1] 3.860083

1C) Compute the standard deviation or spread of the two features

Commands: sd()

Compute the standard deviation for the first feature

#Computing the standard deviation
spreadExpenses = sd(Expenses)
# Inspect the variable with the calculated sd
spreadExpenses

[1] 19.52084

Compute the standard deviation for the second feature

# Calculate the feature standard deviation
spreadSavings = sd(Savings)
# Inspect the variable with the calculated standard deviation
spreadSavings

[1] 3.726292

1D) Compute the signal to noise ratio (SNR) using the given formula:

SNR: Is the average (mean) divided by the spread (sd).

#Compute the snr of Checking and name it snr_Checking
snr_Expenses = meanExpenses/spreadExpenses
#Call snr_Checking
snr_Expenses

[1] 2.848312

# Find the SNR of the second feature
snr_Savings = meanSavings/spreadSavings
# Inspect the variable with the calculated SNR
snr_Savings

[1] 1.035905

Of the two features which has a higher SNR? Why do you think that is? Write your answer below.

Expenses has a higher SNR. This is because expenses has a greater variance than savings.

Task 2

2A) Examine the content of the csv file ‘Scoring.csv’ by opening the file in RStudio and display the first rows of the dataset.

mydata[1,]

2B) Create an star schema using the website erdplus stanalone feature: https://erdplus.com/#/standalone

Below is an example of what the simple star relational schema should look like.

Example of how to create an start schema using erdplus

Example of how to export the final start schema on erdplus

Completed Star Schema Example

2C) Create a code chunk and display the star schema diagram

knitr::include_graphics('C:\\Users\\hp\\Documents\\Spring 2018\\BSAD 343H\\Labs\\Lab 1\\01-notebook-lab\\imgs\\img07.png')

Task 3

Here we are going to familiarize with watson analytics, you should have access to the portal below.

https://watson.analytics.ibmcloud.com

3A) Login into Watson Analytics and upload the assigned dataset. Take an screenshot of watson’s Data section showing the quality of the dataset

knitr::include_graphics('C:\\Users\\hp\\Documents\\Spring 2018\\BSAD 343H\\Labs\\Lab 1\\01-notebook-lab\\imgs\\img08.png')

3B) Use Watson Discovery capabilities to find insights in the dataset

3C) Save your work and upload a screenshot of your finding below.

knitr::include_graphics('C:\\Users\\hp\\Documents\\Spring 2018\\BSAD 343H\\Labs\\Lab 1\\01-notebook-lab\\imgs\\img09.png')

LS0tDQp0aXRsZTogIkRlc2lnbiBDb25jZXB0cyBhbmQgTWV0aG9kb2xvZ2llcyINCmF1dGhvcjogIkNoZXllbm5lIFBlbm55Ig0KZGF0ZTogIlNwcmluZyAyMDE4Ig0Kb3V0cHV0Og0KICBodG1sX25vdGVib29rOiBkZWZhdWx0DQogIGh0bWxfZG9jdW1lbnQ6IGRlZmF1bHQNCiAgcGRmX2RvY3VtZW50OiBkZWZhdWx0DQpzdWJ0aXRsZTogQ01FIEdyb3VwIEZvdW5kYXRpb24gQnVzaW5lc3MgQW5hbHl0aWNzIExhYg0KLS0tDQoNCiMgTm90ZWJvb2sgSW5zdHJ1Y3Rpb25zDQoNCiogRm9yIHlvdXIgYXNzaWdubWVudCB5b3UgbWF5IGJlIHVzaW5nIGRpZmZlcmVudCBkYXRhc2V0IHRoYW4gd2hhdCBpcyBpbmNsdWRlZCBoZXJlLiANCg0KKiBBbHdheXMgcmVhZCBjYXJlZnVsbHkgdGhlIGluc3RydWN0aW9ucyBvbiBTYWthaS4gIA0KDQoqIFRhc2tzL3F1ZXN0aW9ucyB0byBiZSBjb21wbGV0ZWQvYW5zd2VyZWQgYXJlIGhpZ2hsaWdodGVkIGluIGxhcmdlciBib2xkZWQgZm9udHMgYW5kIG51bWJlcmVkIGFjY29yZGluZyB0byB0aGUgdGFzayBzZWN0aW9uLg0KDQotLS0tLS0tLS0tLS0tLQ0KDQojIyBUYXNrIDENCg0KDQojIyMgSW5zdGFsbGluZyBwYWNrYWdlcyBpbiBSL1JTdHVkaW8uIA0KV2UgYXJlIGdvaW5nIHRvIHVzZSB0aWR5dmVyc2UgYSBjb2xsZWN0aW9uIG9mIFIgcGFja2FnZXMgZGVzaWduZWQgZm9yIGRhdGEgc2NpZW5jZS4gQWxsIHBhY2thZ2VzIHNoYXJlIGFuIHVuZGVybHlpbmcgZGVzaWduIHBoaWxvc29waHksIGdyYW1tYXIsIGFuZCBkYXRhIHN0cnVjdHVyZXMuIA0KKkluZm86KiBodHRwczovL3d3dy50aWR5dmVyc2Uub3JnLw0KDQpgYGB7ciwgZWNobz1GQUxTRX0NCg0KIyBIZXJlIHdlIGFyZSBjaGVja2luZyBpZiB0aGUgcGFja2FnZSBpcyBpbnN0YWxsZWQNCmlmKCFyZXF1aXJlKHRpZHl2ZXJzZSkpew0KICANCiAgIyBJZiB0aGUgcGFja2FnZSBpcyBub3QgaW4gdGhlIHN5c3RlbSB0aGVuIGl0IHdpbGwgYmUgaW5zdGFsbA0KICBpbnN0YWxsLnBhY2thZ2VzKCJ0aWR5dmVyc2UiLCBkZXBlbmRlbmNpZXMgPSBUUlVFKQ0KICANCiAgIyBIZXJlIHdlIGFyZSBsb2FkaW5nIHRoZSBwYWNrYWdlDQogIGxpYnJhcnkodGlkeXZlcnNlKQ0KfQ0KDQpgYGANCg0KDQojIyMgMUEpIFJlYWQgdGhlIGNzdiBmaWxlIGludG8gUiBTdHVkaW8gYW5kIGRpc3BsYXkgdGhlIGRhdGFzZXQuIA0KDQoqIE5hbWUgeW91ciBkYXRhc2V0ICdteWRhdGEnIHNvIGl0IGVhc3kgdG8gd29yayB3aXRoLg0KKiBDb21tYW5kczogcmVhZF9jc3YoKSBoZWFkKCkNCg0KYGBge3J9DQpteWRhdGE9IHJlYWRfY3N2KCJDOlxcVXNlcnNcXGhwXFxEb2N1bWVudHNcXFNwcmluZyAyMDE4XFxCU0FEIDM0M0hcXExhYnNcXExhYiAxXFwwMS1ub3RlYm9vay1sYWJcXFNjb3JpbmcuY3N2IikNCmhlYWQobXlkYXRhKQ0KYGBgDQoNCiMjIyMgRXh0cmFjdCB0aGUgYXNzaWduZWQgZmVhdHVyZXMgKGNvbHVtbnMpIHRvIHBlcmZvcm0gc29tZSBhbmFseXRpY3MNCg0KVG8gZXh0cmFjdCB0aGUgZmVhdHVyZXMgKGNvbHVtbnMpIGZyb20gdGhlIGRhdGFzZXQsIHVzZSB0aGUgbmFtZSBvZiB0aGUgZGF0YXNldCBmb2xsb3cgYnkgJyQnIHNpZ24gYW5kIHRoZSBuYW1lIHRoZSBzcGVjaWZpYyBjb2x1bW4uIA0KDQoqRXh0cmFjdCB0aGUgZmlyc3QgZmVhdHVyZSAoY29sdW1uKSoNCmBgYHtyfQ0KI0V4dHJhY3RpbmcgdGhlIENoZWNraW5nIENvbHVtbg0KRXhwZW5zZXMgPSBteWRhdGEkRXhwZW5zZXMgDQoNCiNDYWxsaW5nIHRoZSBDaGVja2luZyBDb2x1bW4NCkV4cGVuc2VzIFsxOjEwXQ0KYGBgDQoNCipOb3csIHVzZSB0aGUgc2FtZSBwcm9jZWR1cmUgdG8gZXh0cmFjdCB0aGUgb3RoZXIgZmVhdHVyZSoNCg0KYGBge3J9DQojRXh0cmFjdGluZyB0aGUgZmVhdHVyZSAoY29sdW1uKQ0KU2F2aW5ncyA9IG15ZGF0YSRTYXZpbmdzDQoNCiNDYWxsaW5nIHRoZSAgZmVhdHVyZSAoY29sdW1uKQ0KU2F2aW5ncyBbMToxMF0NCg0KYGBgDQoNCiMjIyAxQikgQ29tcHV0ZSB0aGUgbWVhbiBhbmQgc3RhbmRhcmQgZGV2aWF0aW9uIG9mIHRoZSBhc3NpZ25lZCBmZWF0dXJlcyAoY29sdW1ucykNCg0KKiBDb21tYW5kczogbWVhbigpIHNkKCkNCiogVXNlIHRoZSBtZWFuKCkgZnVuY3Rpb24gb24gZmVhdHVyZSB0byBjYWxjdWxhdGUgdGhlIGF2ZXJhZ2UgDQoqIE5hbWUgdGhlIHJlc3VsdCBtZWFuIGFuZCB0aGUgZmVhdHVyZSBuYW1lLiBGb3IgZXhhbXBsZSBtZWFuQ2hlY2tpbmcNCg0KYGBge3J9DQojIENhbGN1bGF0ZSB0aGUgZmVhdHVyZSBhdmVyYWdlDQptZWFuRXhwZW5zZXMgPSBtZWFuKEV4cGVuc2VzKQ0KDQojIEluc3BlY3QgdGhlIHZhcmlhYmxlIHdpdGggdGhlIGNhbGN1bGF0ZWQgbWVhbg0KbWVhbkV4cGVuc2VzDQpgYGANCg0KKlJlcGVhdCB0aGUgc2FtZSBwcm9jZWR1cmUgZm9yIHRoZSBvdGhlciBmZWF0dXJlKg0KDQpgYGB7cn0NCiMgQ2FsY3VsYXRlIHRoZSBmZWF0dXJlIGF2ZXJhZ2UNCm1lYW5TYXZpbmdzID0gbWVhbihTYXZpbmdzKQ0KDQojIEluc3BlY3QgdGhlIHZhcmlhYmxlIHdpdGggdGhlIGNhbGN1bGF0ZWQgbWVhbg0KbWVhblNhdmluZ3MNCmBgYA0KDQoNCiMjIyAxQykgQ29tcHV0ZSB0aGUgc3RhbmRhcmQgZGV2aWF0aW9uIG9yIHNwcmVhZCBvZiB0aGUgdHdvIGZlYXR1cmVzDQoNCiogQ29tbWFuZHM6IHNkKCkNCg0KKkNvbXB1dGUgdGhlIHN0YW5kYXJkIGRldmlhdGlvbiBmb3IgdGhlIGZpcnN0IGZlYXR1cmUqDQoNCmBgYHtyfQ0KI0NvbXB1dGluZyB0aGUgc3RhbmRhcmQgZGV2aWF0aW9uDQpzcHJlYWRFeHBlbnNlcyA9IHNkKEV4cGVuc2VzKQ0KDQojIEluc3BlY3QgdGhlIHZhcmlhYmxlIHdpdGggdGhlIGNhbGN1bGF0ZWQgc2QNCnNwcmVhZEV4cGVuc2VzDQpgYGANCg0KKkNvbXB1dGUgdGhlIHN0YW5kYXJkIGRldmlhdGlvbiBmb3IgdGhlIHNlY29uZCBmZWF0dXJlKg0KDQpgYGB7cn0NCg0KIyBDYWxjdWxhdGUgdGhlIGZlYXR1cmUgc3RhbmRhcmQgZGV2aWF0aW9uDQpzcHJlYWRTYXZpbmdzID0gc2QoU2F2aW5ncykNCiMgSW5zcGVjdCB0aGUgdmFyaWFibGUgd2l0aCB0aGUgY2FsY3VsYXRlZCBzdGFuZGFyZCBkZXZpYXRpb24NCnNwcmVhZFNhdmluZ3MNCmBgYA0KDQojIyMgMUQpIENvbXB1dGUgdGhlIHNpZ25hbCB0byBub2lzZSByYXRpbyAoU05SKSB1c2luZyB0aGUgZ2l2ZW4gZm9ybXVsYToNCg0KKiAqU05SOiogSXMgdGhlIGF2ZXJhZ2UgKG1lYW4pIGRpdmlkZWQgYnkgdGhlIHNwcmVhZCAoc2QpLiANCg0KYGBge3J9DQojQ29tcHV0ZSB0aGUgc25yIG9mIENoZWNraW5nIGFuZCBuYW1lIGl0IHNucl9DaGVja2luZw0Kc25yX0V4cGVuc2VzID0gbWVhbkV4cGVuc2VzL3NwcmVhZEV4cGVuc2VzDQoNCiNDYWxsIHNucl9DaGVja2luZw0Kc25yX0V4cGVuc2VzDQoNCmBgYA0KDQoNCmBgYHtyfQ0KDQojIEZpbmQgdGhlIFNOUiBvZiB0aGUgc2Vjb25kIGZlYXR1cmUNCnNucl9TYXZpbmdzID0gbWVhblNhdmluZ3Mvc3ByZWFkU2F2aW5ncw0KDQojIEluc3BlY3QgdGhlIHZhcmlhYmxlIHdpdGggdGhlIGNhbGN1bGF0ZWQgU05SDQpzbnJfU2F2aW5ncyANCmBgYA0KDQoNCiMjIyMgT2YgdGhlIHR3byBmZWF0dXJlcyB3aGljaCBoYXMgYSBoaWdoZXIgU05SPyBXaHkgZG8geW91IHRoaW5rIHRoYXQgaXM/IFdyaXRlIHlvdXIgYW5zd2VyIGJlbG93Lg0KDQpgYGB7cn0NCkV4cGVuc2VzIGhhcyBhIGhpZ2hlciBTTlIuIFRoaXMgaXMgYmVjYXVzZSBleHBlbnNlcyBoYXMgYSBncmVhdGVyIHZhcmlhbmNlIHRoYW4gc2F2aW5ncy4gIA0KYGBgDQoNCi0tLS0tLS0tLS0tLQ0KDQojIyBUYXNrIDINCg0KIyMjIyAyQSkgRXhhbWluZSB0aGUgY29udGVudCBvZiB0aGUgY3N2IGZpbGUgJ1Njb3JpbmcuY3N2JyBieSBvcGVuaW5nIHRoZSBmaWxlIGluIFJTdHVkaW8gYW5kIGRpc3BsYXkgdGhlIGZpcnN0IHJvd3Mgb2YgdGhlIGRhdGFzZXQuDQoNCmBgYHtyfQ0KbXlkYXRhWzEsXQ0KYGBgDQoNCiMjIyMgMkIpIENyZWF0ZSBhbiBzdGFyIHNjaGVtYSB1c2luZyB0aGUgd2Vic2l0ZSBlcmRwbHVzIHN0YW5hbG9uZSBmZWF0dXJlOiBodHRwczovL2VyZHBsdXMuY29tLyMvc3RhbmRhbG9uZSANCg0KKkJlbG93IGlzIGFuIGV4YW1wbGUgb2Ygd2hhdCB0aGUgc2ltcGxlIHN0YXIgcmVsYXRpb25hbCBzY2hlbWEgc2hvdWxkIGxvb2sgbGlrZS4qDQoNCmBgYHtyLCBlY2hvPUZBTFNFfQ0Ka25pdHI6OmluY2x1ZGVfZ3JhcGhpY3MoJ2ltZ3MvaW1nMDEucG5nJykNCmBgYA0KDQoqRXhhbXBsZSBvZiBob3cgdG8gY3JlYXRlIGFuIHN0YXJ0IHNjaGVtYSB1c2luZyBlcmRwbHVzKg0KYGBge3IsIGVjaG89RkFMU0V9DQprbml0cjo6aW5jbHVkZV9ncmFwaGljcygnaHR0cHM6Ly9lcmRwbHVzLmNvbS9hc3NldHMvaW1hZ2VzL1N0YXJTY2hlbWFEZW1vVGlueS5naWYnKQ0KYGBgDQoNCipFeGFtcGxlIG9mIGhvdyB0byBleHBvcnQgdGhlIGZpbmFsIHN0YXJ0IHNjaGVtYSBvbiBlcmRwbHVzKg0KYGBge3IsIGVjaG89RkFMU0V9DQprbml0cjo6aW5jbHVkZV9ncmFwaGljcygnaW1ncy9pbWcwNS5wbmcnKQ0KYGBgDQoNCipDb21wbGV0ZWQgU3RhciBTY2hlbWEgRXhhbXBsZSoNCmBgYHtyLCBlY2hvPUZBTFNFfQ0Ka25pdHI6OmluY2x1ZGVfZ3JhcGhpY3MoJ2ltZ3MvaW1nMDYucG5nJykNCmBgYA0KDQojIyMjIDJDKSBDcmVhdGUgYSBjb2RlIGNodW5rIGFuZCBkaXNwbGF5IHRoZSBzdGFyIHNjaGVtYSBkaWFncmFtDQoNCmBgYHtyfQ0Ka25pdHI6OmluY2x1ZGVfZ3JhcGhpY3MoJ0M6XFxVc2Vyc1xcaHBcXERvY3VtZW50c1xcU3ByaW5nIDIwMThcXEJTQUQgMzQzSFxcTGFic1xcTGFiIDFcXDAxLW5vdGVib29rLWxhYlxcaW1nc1xcaW1nMDcucG5nJykNCmBgYA0KDQotLS0tLS0tLS0tLS0tDQoNCg0KIyMjIFRhc2sgMw0KDQpIZXJlIHdlIGFyZSBnb2luZyB0byBmYW1pbGlhcml6ZSB3aXRoIHdhdHNvbiBhbmFseXRpY3MsIHlvdSBzaG91bGQgaGF2ZSBhY2Nlc3MgdG8gdGhlIHBvcnRhbCBiZWxvdy4NCg0KaHR0cHM6Ly93YXRzb24uYW5hbHl0aWNzLmlibWNsb3VkLmNvbQ0KDQoNCiMjIyMgM0EpIExvZ2luIGludG8gV2F0c29uIEFuYWx5dGljcyBhbmQgdXBsb2FkIHRoZSBhc3NpZ25lZCBkYXRhc2V0LiBUYWtlIGFuIHNjcmVlbnNob3Qgb2Ygd2F0c29uJ3MgRGF0YSBzZWN0aW9uIHNob3dpbmcgdGhlIHF1YWxpdHkgb2YgdGhlIGRhdGFzZXQNCg0KYGBge3J9DQprbml0cjo6aW5jbHVkZV9ncmFwaGljcygnQzpcXFVzZXJzXFxocFxcRG9jdW1lbnRzXFxTcHJpbmcgMjAxOFxcQlNBRCAzNDNIXFxMYWJzXFxMYWIgMVxcMDEtbm90ZWJvb2stbGFiXFxpbWdzXFxpbWcwOC5wbmcnKQ0KYGBgDQoNCg0KIyMjIyAzQikgVXNlIFdhdHNvbiBEaXNjb3ZlcnkgY2FwYWJpbGl0aWVzIHRvIGZpbmQgaW5zaWdodHMgaW4gdGhlIGRhdGFzZXQNCg0KYGBge3J9DQoNCmBgYA0KDQoNCiMjIyMgM0MpIFNhdmUgeW91ciB3b3JrIGFuZCB1cGxvYWQgYSBzY3JlZW5zaG90IG9mIHlvdXIgZmluZGluZyBiZWxvdy4NCmBgYHtyfQ0Ka25pdHI6OmluY2x1ZGVfZ3JhcGhpY3MoJ0M6XFxVc2Vyc1xcaHBcXERvY3VtZW50c1xcU3ByaW5nIDIwMThcXEJTQUQgMzQzSFxcTGFic1xcTGFiIDFcXDAxLW5vdGVib29rLWxhYlxcaW1nc1xcaW1nMDkucG5nJykNCmBgYA0KDQoNCg0K

Design Concepts and Methodologies

CME Group Foundation Business Analytics Lab

Cheyenne Penny

Spring 2018