Homework 1

I work analyzing data for a Contact Center por an E-Commerce platform, so it would be interesting to predict wich contact channel the customers prefer (email,Chat,Call) depending on different characteristics. The predictors might be:

Country of contact
Seller experience
Contact Origin (Through FAQs or seller dashboard)
Age
Sex

2.1) I downloaded the information, loaded it as “Data”, and organized it:

Data <- read.table(“/Users/mariajimenaolanov/Documents/R/credit_card_data-headers.txt”,header=TRUE) library(kernlab) Plot <- as.matrix(Data[,1:10]) Classifier <- as.factor(Data[,11])

With this I was able to excecute the ksvm function, with C=100 to find a good classifier:

ksvm(Plot,Classifier,type=“C-svc”,kernel=“vanilladot”,C=100,scaled=TRUE) model <- ksvm(Plot,Classifier,type=“C-svc”,kernel=“vanilladot”,C=100,scaled=TRUE) a <- colSums(model@xmatrix[[1]] * model@coef[[1]])

           A1            A2            A3            A8            A9           A10           A11 
-0.0011608980 -0.0006366002 -0.0015209679  0.0032020638  1.0041338724 -0.0033773669  0.0002428616 
          A12           A14           A15 
-0.0004747021 -0.0011931900  0.1064450527

a0 <- -model@b

a0

[1] 0.08155226

pred <- predict (model,Data[,1:10])

pred

  [1] 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 [52] 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[103] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[154] 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[205] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
[256] 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0
[307] 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[358] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[409] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[460] 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[511] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1
[562] 1 1 1 0 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[613] 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Levels: 0 1

sum(pred == Data[,11]) / nrow(Data)

[1] 0.8639144

I then tried to run the the ksvn function with different values for C to find the best classifier, with the following results: 1) C=100 86.39144% 2) C=1000 86.23853% 3) C=1 86.39144%

After these trials I chose the first option offered in the excercise with a predicted value of 86.39144%. The equation of the classifier would be as follows: -0.0010065348A1 -0.0011729048A2 -0.0016261967A3 +0.0030064203A8 +1.0049405641A9 -0.0028259432A10 +0.0002600295A11 -0.0005349551A12 -0.001228375813 +0.1063633995A14 + 0.08158492

LS0tCnRpdGxlOiAiSG9tZXdvcmsgMSIKb3V0cHV0OgogIHBkZl9kb2N1bWVudDogZGVmYXVsdAogIHdvcmRfZG9jdW1lbnQ6IGRlZmF1bHQKICBodG1sX2RvY3VtZW50OgogICAgZGZfcHJpbnQ6IHBhZ2VkCiAgaHRtbF9ub3RlYm9vazogZGVmYXVsdApBdXRob3I6IFbDrGN0b3IgR2ltw6luZXoKLS0tCjEpCkkgd29yayBhbmFseXppbmcgZGF0YSBmb3IgYSBDb250YWN0IENlbnRlciBwb3IgYW4gRS1Db21tZXJjZSBwbGF0Zm9ybSwgc28gaXQgd291bGQgYmUgaW50ZXJlc3RpbmcgdG8gcHJlZGljdCB3aWNoIGNvbnRhY3QgY2hhbm5lbCB0aGUgY3VzdG9tZXJzIHByZWZlciAoZW1haWwsQ2hhdCxDYWxsKSBkZXBlbmRpbmcgb24gZGlmZmVyZW50IGNoYXJhY3RlcmlzdGljcy4gVGhlIHByZWRpY3RvcnMgbWlnaHQgYmU6Ci0gQ291bnRyeSBvZiBjb250YWN0Ci0gU2VsbGVyIGV4cGVyaWVuY2UgCi0gQ29udGFjdCBPcmlnaW4gKFRocm91Z2ggRkFRcyBvciBzZWxsZXIgZGFzaGJvYXJkKQotIEFnZQotIFNleAoKCjIuMSkKSSBkb3dubG9hZGVkIHRoZSBpbmZvcm1hdGlvbiwgbG9hZGVkIGl0IGFzICJEYXRhIiwgYW5kIG9yZ2FuaXplZCBpdDoKCkRhdGEgPC0gcmVhZC50YWJsZSgiL1VzZXJzL21hcmlhamltZW5hb2xhbm92L0RvY3VtZW50cy9SL2NyZWRpdF9jYXJkX2RhdGEtaGVhZGVycy50eHQiLGhlYWRlcj1UUlVFKQpsaWJyYXJ5KGtlcm5sYWIpClBsb3QgPC0gYXMubWF0cml4KERhdGFbLDE6MTBdKQpDbGFzc2lmaWVyIDwtIGFzLmZhY3RvcihEYXRhWywxMV0pCgpXaXRoIHRoaXMgSSB3YXMgYWJsZSB0byBleGNlY3V0ZSB0aGUga3N2bSBmdW5jdGlvbiwgd2l0aCBDPTEwMCB0byBmaW5kIGEgZ29vZCBjbGFzc2lmaWVyOgoKa3N2bShQbG90LENsYXNzaWZpZXIsdHlwZT0iQy1zdmMiLGtlcm5lbD0idmFuaWxsYWRvdCIsQz0xMDAsc2NhbGVkPVRSVUUpCm1vZGVsIDwtIGtzdm0oUGxvdCxDbGFzc2lmaWVyLHR5cGU9IkMtc3ZjIixrZXJuZWw9InZhbmlsbGFkb3QiLEM9MTAwLHNjYWxlZD1UUlVFKQphIDwtIGNvbFN1bXMobW9kZWxAeG1hdHJpeFtbMV1dICogbW9kZWxAY29lZltbMV1dKQpgYGB7cn0KYQpgYGAKYTAgPC0gLW1vZGVsQGIKYGBge3J9CmEwCmBgYApwcmVkIDwtIHByZWRpY3QgKG1vZGVsLERhdGFbLDE6MTBdKQpgYGB7cn0KcHJlZApgYGAKYGBge3J9CnN1bShwcmVkID09IERhdGFbLDExXSkgLyBucm93KERhdGEpCmBgYApJIHRoZW4gdHJpZWQgdG8gcnVuIHRoZSB0aGUga3N2biBmdW5jdGlvbiB3aXRoIGRpZmZlcmVudCB2YWx1ZXMgZm9yIEMgdG8gZmluZCB0aGUgYmVzdCBjbGFzc2lmaWVyLCB3aXRoIHRoZSBmb2xsb3dpbmcgcmVzdWx0czoKMSkgQz0xMDAgODYuMzkxNDQlCjIpIEM9MTAwMCA4Ni4yMzg1MyUKMykgQz0xIDg2LjM5MTQ0JQoKQWZ0ZXIgdGhlc2UgdHJpYWxzIEkgY2hvc2UgdGhlIGZpcnN0IG9wdGlvbiBvZmZlcmVkIGluIHRoZSBleGNlcmNpc2Ugd2l0aCBhIHByZWRpY3RlZCB2YWx1ZSBvZiA4Ni4zOTE0NCUuClRoZSBlcXVhdGlvbiBvZiB0aGUgY2xhc3NpZmllciB3b3VsZCBiZSBhcyBmb2xsb3dzOgotMC4wMDEwMDY1MzQ4QTEgLTAuMDAxMTcyOTA0OEEyIC0wLjAwMTYyNjE5NjdBMyAgKzAuMDAzMDA2NDIwM0E4ICArMS4wMDQ5NDA1NjQxQTkgLTAuMDAyODI1OTQzMkExMCAgKzAuMDAwMjYwMDI5NUExMSAtMC4wMDA1MzQ5NTUxQTEyIC0wLjAwMTIyODM3NTgxMyAgKzAuMTA2MzYzMzk5NUExNCArIDAuMDgxNTg0OTIKCgo=