DATA EXPLORATION

summary(mb_eval_data)
##      INDEX      TEAM_BATTING_H TEAM_BATTING_2B TEAM_BATTING_3B 
##  Min.   :   9   Min.   : 819   Min.   : 44.0   Min.   : 14.00  
##  1st Qu.: 708   1st Qu.:1387   1st Qu.:210.0   1st Qu.: 35.00  
##  Median :1249   Median :1455   Median :239.0   Median : 52.00  
##  Mean   :1264   Mean   :1469   Mean   :241.3   Mean   : 55.91  
##  3rd Qu.:1832   3rd Qu.:1548   3rd Qu.:278.5   3rd Qu.: 72.00  
##  Max.   :2525   Max.   :2170   Max.   :376.0   Max.   :155.00  
##                                                                
##  TEAM_BATTING_HR  TEAM_BATTING_BB TEAM_BATTING_SO  TEAM_BASERUN_SB
##  Min.   :  0.00   Min.   : 15.0   Min.   :   0.0   Min.   :  0.0  
##  1st Qu.: 44.50   1st Qu.:436.5   1st Qu.: 545.0   1st Qu.: 59.0  
##  Median :101.00   Median :509.0   Median : 686.0   Median : 92.0  
##  Mean   : 95.63   Mean   :499.0   Mean   : 709.3   Mean   :123.7  
##  3rd Qu.:135.50   3rd Qu.:565.5   3rd Qu.: 912.0   3rd Qu.:151.8  
##  Max.   :242.00   Max.   :792.0   Max.   :1268.0   Max.   :580.0  
##                                   NA's   :18       NA's   :13     
##  TEAM_BASERUN_CS  TEAM_BATTING_HBP TEAM_PITCHING_H TEAM_PITCHING_HR
##  Min.   :  0.00   Min.   :42.00    Min.   : 1155   Min.   :  0.0   
##  1st Qu.: 38.00   1st Qu.:53.50    1st Qu.: 1426   1st Qu.: 52.0   
##  Median : 49.50   Median :62.00    Median : 1515   Median :104.0   
##  Mean   : 52.32   Mean   :62.37    Mean   : 1813   Mean   :102.1   
##  3rd Qu.: 63.00   3rd Qu.:67.50    3rd Qu.: 1681   3rd Qu.:142.5   
##  Max.   :154.00   Max.   :96.00    Max.   :22768   Max.   :336.0   
##  NA's   :87       NA's   :240                                      
##  TEAM_PITCHING_BB TEAM_PITCHING_SO TEAM_FIELDING_E  TEAM_FIELDING_DP
##  Min.   : 136.0   Min.   :   0.0   Min.   :  73.0   Min.   : 69.0   
##  1st Qu.: 471.0   1st Qu.: 613.0   1st Qu.: 131.0   1st Qu.:131.0   
##  Median : 526.0   Median : 745.0   Median : 163.0   Median :148.0   
##  Mean   : 552.4   Mean   : 799.7   Mean   : 249.7   Mean   :146.1   
##  3rd Qu.: 606.5   3rd Qu.: 938.0   3rd Qu.: 252.0   3rd Qu.:164.0   
##  Max.   :2008.0   Max.   :9963.0   Max.   :1568.0   Max.   :204.0   
##                   NA's   :18                        NA's   :31

We can see which variables have a lot of missing values above, and below, we can see which ariables are normal and whihc are skewed.

mb_eval_data %>% gather() %>% head()
##     key value
## 1 INDEX     9
## 2 INDEX    10
## 3 INDEX    14
## 4 INDEX    47
## 5 INDEX    60
## 6 INDEX    63
ggplot(gather(mb_eval_data), aes(value)) + 
    geom_histogram(bins = 10) + 
    facet_wrap(~key, scales = 'free_x')
## Warning: Removed 407 rows containing non-finite values (stat_bin).

DATA PREPARATION

TEAM_BATTING_HBP has 240 missing values so we will remove it, we will also remove index, because it doesn’t provide any information, and I will fill columns with NA values using tidyr fill function.

#TEAM_BATTING_HBP has 240 missing values so we will remove it, we will also remove index, because it doesn't provide any information
mb_eval_data <- subset(mb_eval_data, select = -c(INDEX, TEAM_BATTING_HBP))
#apply same transformation to the training data
mb_train_data <- subset(mb_train_data, select = -c(INDEX, TEAM_BATTING_HBP))
#fill columns with NA values using tidyr fill function
mb_eval_data %>% fill(TEAM_BATTING_SO, TEAM_BASERUN_SB, TEAM_BASERUN_CS, TEAM_PITCHING_SO, TEAM_FIELDING_DP)
##     TEAM_BATTING_H TEAM_BATTING_2B TEAM_BATTING_3B TEAM_BATTING_HR
## 1             1209             170              33              83
## 2             1221             151              29              88
## 3             1395             183              29              93
## 4             1539             309              29             159
## 5             1445             203              68               5
## 6             1431             236              53              10
## 7             1430             219              55              37
## 8             1385             158              42              33
## 9             1259             177              78              23
## 10            1397             212              42              58
## 11            1427             243              40              50
## 12            1496             239              55             164
## 13            1420             223              57             186
## 14            1460             232              22             176
## 15            1411             195              22             141
## 16            1434             192              30             153
## 17            1297             204              22             130
## 18            1446             284              25             166
## 19            1276             162              52              17
## 20            1715             322              72             116
## 21            1520             295              68              49
## 22            1597             291              38              98
## 23            1453             256              67             105
## 24            1378             225              26             118
## 25            1516             277              24             152
## 26            1556             288              20             164
## 27            1499             183              28               3
## 28            1464             263              58              47
## 29            1558             318              66              32
## 30            1502             308              36              39
## 31            1596             320              58             130
## 32            1546             260              59             110
## 33            1516             282              53             115
## 34            1550             275              47             146
## 35            1447             260              54             148
## 36            1450             252              28             203
## 37            1347             239              36             130
## 38            1561             260              56             214
## 39            1578             252              26             135
## 40            1598             259              45             181
## 41            1497             322              21             145
## 42            1569             310              39             124
## 43            1119             118              33               7
## 44            1609             196             120              62
## 45            1514             175              70              80
## 46            1657             237             119              41
## 47            1746             213             106              69
## 48            1319             224              70              56
## 49            1293             204              70              18
## 50            1420             235              70              36
## 51            1496             269              54              76
## 52            1625             289              38              80
## 53            1391             239              50             145
## 54            1319             203              43             130
## 55            1411             251              35             107
## 56            1420             221              41             104
## 57            1552             206             106              38
## 58            1280             203              72              15
## 59            1120             122              61               7
## 60            1390             183              84              18
## 61            1554             252              81              29
## 62            1410             218              69              45
## 63            1507             262              28             159
## 64            1481             284              19             242
## 65            1450             253              23             200
## 66            1637             260              93              26
## 67            1436             202              82              44
## 68            1600             218              89              21
## 69            1348             168              76              23
## 70            1460             191             111              22
## 71            1621             255             126              37
## 72            1433             241              49              45
## 73            1440             232              48             155
## 74            1479             211              34             232
## 75            1573             281              36             106
## 76            1558             224              42             171
## 77            1385             225              46             130
## 78            1419             250              27             164
## 79            1284             198              61              19
## 80            1403             200              68              10
## 81            1631             358              48             105
## 82            1666             343              82              98
## 83            1804             376              86             129
## 84            1534             284              53              74
## 85            1472             222              52             156
## 86            1489             229              21             134
## 87            1367             198              21             156
## 88            1485             222              46             101
## 89            1458             225              32             109
## 90            1530             334              30             198
## 91            1421             160              72              30
## 92            1869             301             122              58
## 93            1400             169              66              26
## 94            1494             193              81              12
## 95            1449             223              62              20
## 96            1385             200              76              29
## 97            1443             218              99              24
## 98            1825             284             106              61
## 99            1627             296              95              38
## 100           1623             299             106              54
## 101           1556             298              82              60
## 102           1381             228              39              80
## 103           1556             272              46             114
## 104           1416             206              32             168
## 105           1413             257              21             204
## 106           1504             253             102              33
## 107           1193             165              68              45
## 108           1461             325              30             166
## 109           1458             294              36             187
## 110           1295             237              64              25
## 111           1431             263              58             118
## 112           1469             305              59              98
## 113           1633             266              59             115
## 114           1603             295              58             132
## 115           1487             269              52             117
## 116           1474             318              44             101
## 117           1594             296              52             152
## 118           1415             285              42             140
## 119           1445             289              34             126
## 120           1362             199              81              29
## 121           1572             195             106              30
## 122           1209             168              56              16
## 123           1242             155              69              20
## 124           1098             116              63              29
## 125           1235             175              77              26
## 126           1651             247              80              59
## 127           1712             265              85              68
## 128           1391             206              78              41
## 129           1625             299              73             105
## 130           1740             319              77             128
## 131           1626             303              55              84
## 132           1471             277              36              65
## 133           1373             232              14             130
## 134           1466             215              35             158
## 135           1450             226              30             203
## 136           1474             223              57              18
## 137           1335             228              49             120
## 138           1455             233              36              97
## 139           1477             272              35              82
## 140           1426             240              25             125
## 141           1255             183              61              11
## 142           1264             141              79               9
## 143           1695             310              89              66
## 144           1460             274              66              63
## 145           1349             237              46              53
## 146           1340             226              40             117
## 147           1396             257              42             150
## 148           1472             259              47              82
## 149           1544             256              46             112
## 150           1453             282              41             141
## 151           1446             257              39             196
## 152           1468             289              30             106
## 153           1546              44              29               0
## 154           1372             195              31             103
## 155           1365             203              29              98
## 156           1314             172              26             112
## 157           1469             323              41             200
## 158           1382             185              86              32
## 159           1642             218             135              29
## 160           1324             153              65              17
## 161           1770             313             116             160
## 162           1765             293              83             164
## 163           1590             277              76             113
## 164           1775             334              88             193
## 165           1635             297              77             183
## 166           1557             264              79             146
## 167           1485             210              57             153
## 168           1461             229              41             152
## 169           1322             208              19             147
## 170           1462             281              18             163
## 171           1537             217             115              23
## 172           1495             236              85              35
## 173           1468             280              70              66
## 174           1689             296              74              59
## 175           1533             301              59             104
## 176           1379             229              55              64
## 177           1373             223              37              94
## 178           1394             215              43             118
## 179           1371             223              36             116
## 180           1400             210              28             148
## 181           1327             209              33             114
## 182           1432             263              33             199
## 183           1474             251              22             156
## 184           1450             279              28             205
## 185           2025             292             140              32
## 186           1669             281             102              35
## 187           1631             291              79              52
## 188           1420             299              79               5
## 189           1312             230              52              29
## 190           2058             336              90              75
## 191           1351             181              58              25
## 192           1452             199              87              17
## 193           1466             242              57              68
## 194           1534             256              44              64
## 195           1609             311              38              61
## 196           1344             207              28              59
## 197           1438             239              41              96
## 198           1368             225              53             139
## 199           1381             218              52             127
## 200           1498             250              59             130
## 201           1389             206              53             145
## 202           1448             224              49             117
## 203           1307             225              58             102
## 204           1517             250              38             104
## 205           1417             245              25             112
## 206           1352             209              45             125
## 207           1458             296              34             106
## 208           1390             290              35             116
## 209           1475             257              80              52
## 210           1378             178              85              35
## 211           1817             277             155              60
## 212           1711             213             133              29
## 213           1415             217             112              52
## 214           1263             190              32              97
## 215           1328             221              63              96
## 216           1571             248              59             126
## 217           1522             235              70             130
## 218           1550             278              57             133
## 219           1412             237              33              98
## 220           1344             243              46             111
## 221           1441             276              30             141
## 222           1395             271              35             107
## 223           1506             320              31             168
## 224           1437             269              39             143
## 225           2170             241              70              13
## 226           1324             194              53              94
## 227           1442             239              25             136
## 228           1413             279              37             157
## 229           1416             269              39             130
## 230           1523             216              97              33
## 231           1294             169              51              24
## 232           1668             251              98              79
## 233           1422             215              53             140
## 234           1524             231              31             200
## 235           1392             227              41             134
## 236           1318             200              44              80
## 237           1499             229              26             112
## 238           1345             215              48             141
## 239           1620             210             139              66
## 240           1339             185              80              34
## 241           1621             272              86              95
## 242           1585             288              62             105
## 243           1576             269              46              67
## 244           1541             300              49             101
## 245           1149             175              18              59
## 246           1626             265              27             125
## 247           1461             228              29             121
## 248           1472             284              39             181
## 249           1366             218              39              99
## 250           1489             287              36             195
## 251           1457             305              38             187
## 252           1454             220              52               9
## 253           1642             221              98              56
## 254            819              72              72              18
## 255           1251             162              23              95
## 256           1345             190              23             125
## 257           1381             263              37             102
## 258           1410             270              36             122
## 259           1423             339              34             172
##     TEAM_BATTING_BB TEAM_BATTING_SO TEAM_BASERUN_SB TEAM_BASERUN_CS
## 1               447            1080              62              50
## 2               516             929              54              39
## 3               509             816              59              47
## 4               486             914             148              57
## 5                95             416             148              57
## 6               215             377             148              57
## 7               568             527             365              57
## 8               356             609             185              57
## 9               466             689             150              57
## 10              452             584              52              57
## 11              495             640              64              57
## 12              462             670              48              28
## 13              511             751              31              21
## 14              503             680              27               8
## 15              485             665              59              48
## 16              434             747              57              46
## 17              491            1008              84              55
## 18              565            1041              77              39
## 19              383            1041             138              39
## 20              527             397              90              83
## 21              628             459              77              49
## 22              629             563              54              43
## 23              653             651              40              41
## 24              533             677              18              36
## 25              431             902              89              36
## 26              474             878             121              32
## 27               83               0             121              32
## 28              385             479              63              66
## 29              634             439              83              64
## 30              432             602              45              46
## 31              718             596              70              54
## 32              630             541              72              65
## 33              723             695              47              38
## 34              765             723              29              20
## 35              532             935              39              33
## 36              594             855              50              48
## 37              546             897              69              31
## 38              531             911              66              47
## 39              567             780              48              47
## 40              500             842              38              25
## 41              599             711              41              34
## 42              623             728              65              36
## 43               37               0              65              36
## 44              781             599             536              36
## 45              615             612             392              36
## 46              593             334             325              36
## 47              526             429             324              36
## 48              416             677             176             131
## 49              437             630             134             131
## 50              450             443             121             136
## 51              412             500              55             136
## 52              517             486              72             136
## 53              499            1041              70              49
## 54              415             854              41              30
## 55              471             912              93              64
## 56              417             816              77              51
## 57              566             401             334              51
## 58              392             616             227              51
## 59              427             616             194              51
## 60              445             616             216              51
## 61              494             414             174              51
## 62              738             627              65              58
## 63              573             907             107              52
## 64              499            1030              78              51
## 65              435            1002             137              67
## 66              487             288             446              67
## 67              376             681             160              67
## 68              344             538             152              67
## 69              506             538             296              67
## 70              612             629             306              67
## 71              478             350              54              67
## 72              468             501              52              67
## 73              586             679              49              32
## 74              555             799              47              23
## 75              379             938              59              55
## 76              474            1042              79              56
## 77              637             961             147              66
## 78              488            1006             124              56
## 79              383            1006             186              56
## 80              390            1006             201              56
## 81              553             455              55              34
## 82              487             600              67              57
## 83              541             494              69              56
## 84              539             624              50              44
## 85              659             788              48              41
## 86              467             603              61              26
## 87              506             857             109              46
## 88              534             692              88              88
## 89              651             625             151              68
## 90              630            1061             143              60
## 91              523             508             289              60
## 92              347             127             399              60
## 93              431             344             156              60
## 94              340             344             207              60
## 95              423             344             298              60
## 96              483             344             262              60
## 97              716             554             254             154
## 98              616             398             101              94
## 99              630             445              93              76
## 100             622             445             149              77
## 101             500             550              72              53
## 102             535             501              41              42
## 103             532             634              32              37
## 104             610             775              36              18
## 105             546            1268              87              50
## 106             262             482              87              50
## 107             299            1011              87              50
## 108             470            1145              89              40
## 109             590             999              89              30
## 110             360             814             129              30
## 111             591             675             155              75
## 112             498             644             216              84
## 113             508             709             185              43
## 114             442             758             133              48
## 115             400             832             106              64
## 116             501             884             108              62
## 117             538             938             128              39
## 118             524             921             140              65
## 119             424            1008              53              33
## 120             408             508             386              33
## 121             522             288             297              33
## 122             435             288             217              33
## 123             368             288             132              33
## 124             340             288             119              33
## 125             457             743             159              33
## 126             357             335              83              63
## 127             463             406              39              32
## 128             390             523             112              32
## 129             534             481              85              32
## 130             506             569              56              32
## 131             584             592              59              32
## 132             602             509              85              32
## 133             478             966             155              67
## 134             527            1151             143              51
## 135             536            1092             102              41
## 136             259             391             102              41
## 137             500             909             106              75
## 138             435             677              52              57
## 139             511             779             256             115
## 140             555             932             138              93
## 141             304             814             161              93
## 142             392             814             181              93
## 143             610             421             110              44
## 144             538             674              54              53
## 145             610             639              50              39
## 146             554             771              14              40
## 147             554             969              92              33
## 148             604             684              99              56
## 149             526             693              66              45
## 150             502             779              68              44
## 151             501             977              81              61
## 152             506             990             119              61
## 153              15              44               0               0
## 154             353             932              36              31
## 155             547             958              89              43
## 156             436            1031             141              64
## 157             547            1071             146              35
## 158             326             642             146              35
## 159             449             459             252              35
## 160             437             459             201              35
## 161             677             599              96              63
## 162             792             587             146              72
## 163             657             510              74              50
## 164             741             629              82              42
## 165             746             639              63              38
## 166             655             503              25              25
## 167             591             746              52              40
## 168             515             597              66              47
## 169             427            1027             119              45
## 170             536             903              78              37
## 171             517             903             275              37
## 172             565             579             234              37
## 173             565             488              60              50
## 174             580             343             103              66
## 175             536             567              64              36
## 176             636             592              39              35
## 177             718             590              55              45
## 178             505             765              42              32
## 179             540             783              17              12
## 180             617             953             100              39
## 181             596             823             343             124
## 182             593            1056             140              63
## 183             580             926             129              54
## 184             609            1008              46              20
## 185             259              70             259              20
## 186             391             473             580              20
## 187             650             604             307              20
## 188             233             587             307              20
## 189             324             591             307              20
## 190             573             324             341              20
## 191             402             324             169              20
## 192             433             324             192              20
## 193             300             562             106              88
## 194             406             511              59              88
## 195             433             581              57              88
## 196             472             527              57              88
## 197             463             629              72              88
## 198             686             708              46              34
## 199             615             708              47              24
## 200             603             916              54              35
## 201             497            1098              46              32
## 202             510             969              56              42
## 203             522            1073              72              64
## 204             563             654             156              70
## 205             506             831             128              76
## 206             640             906             143              75
## 207             559             995              81              28
## 208             519            1032              92              56
## 209             515             573             284              56
## 210             512             604             246              56
## 211             541             259             319              56
## 212             418             375             195              56
## 213             552             613             168              56
## 214             511             762              45              43
## 215             495             686              23              23
## 216             511             786              36              25
## 217             444             871              66              34
## 218             474             878             260             120
## 219             438             841              96              62
## 220             560             959             120              61
## 221             513            1094              95              62
## 222             393            1060             159              51
## 223             564            1032              86              40
## 224             418            1073              63              40
## 225             111             102              92              76
## 226             537             775             101              58
## 227             484             917              96              68
## 228             602            1177             131              53
## 229             600             977              99              44
## 230             360             712              99              44
## 231             546             712             217              44
## 232             497             413             145             121
## 233             660             662              44             121
## 234             513             807              72              49
## 235             568             842              90              59
## 236             512             845             101              58
## 237             528             980             126              76
## 238             471             973              95              57
## 239             542             355             233              57
## 240             413             579             149              57
## 241             503             545              87              57
## 242             572             498              39              57
## 243             542             513              58              57
## 244             451             781             117              54
## 245             529             974             133              77
## 246             483             593              92              49
## 247             423             812              82              50
## 248             483             984             113              67
## 249             451             649              28              52
## 250             470            1094             156              55
## 251             522            1142              71              18
## 252              97             393              71              18
## 253             638             451             319              18
## 254             198            1107             319              18
## 255             492             860              71              69
## 256             695             777              77              68
## 257             463             976             196              63
## 258             542             860             228              56
## 259             420            1084              75              46
##     TEAM_PITCHING_H TEAM_PITCHING_HR TEAM_PITCHING_BB TEAM_PITCHING_SO
## 1              1209               83              447             1080
## 2              1221               88              516              929
## 3              1395               93              509              816
## 4              1539              159              486              914
## 5              3902               14              257             1123
## 6              2793               20              420              736
## 7              1544               40              613              569
## 8              1626               39              418              715
## 9              1342               25              497              734
## 10             1489               62              482              622
## 11             1501               53              521              673
## 12             1574              173              486              705
## 13             1494              196              538              790
## 14             1536              185              529              715
## 15             1411              141              485              665
## 16             1434              153              434              747
## 17             1313              132              497             1021
## 18             1464              168              572             1054
## 19             1351               18              406             1054
## 20             1816              123              558              420
## 21             1620               52              669              489
## 22             1702              104              670              600
## 23             1559              113              701              698
## 24             1450              124              561              712
## 25             1516              152              431              902
## 26             1556              164              474              878
## 27             5167               10              286                0
## 28             1540               49              405              504
## 29             1639               34              667              462
## 30             1601               42              460              642
## 31             1679              137              755              627
## 32             1648              117              671              577
## 33             1595              121              761              731
## 34             1631              154              805              761
## 35             1465              150              539              947
## 36             1450              203              594              855
## 37             1408              136              571              938
## 38             1571              215              534              917
## 39             2367              203              851             1170
## 40             1598              181              500              842
## 41             1506              146              603              715
## 42             1569              124              623              728
## 43             4120               26              136                0
## 44             1931               74              937              719
## 45             1803               95              733              729
## 46             2114               52              756              426
## 47             2176               86              655              535
## 48             1397               59              440              717
## 49             1360               19              460              663
## 50             1494               38              473              466
## 51             1574               80              433              526
## 52             1709               84              544              511
## 53             1391              145              499             1041
## 54             1319              130              415              854
## 55             1411              107              471              912
## 56             1420              104              417              816
## 57             1849               45              674              478
## 58             1346               16              412              648
## 59             1186                7              452              648
## 60             1462               19              468              648
## 61             1798               34              572              479
## 62             1483               47              776              660
## 63             1516              160              577              913
## 64             1481              242              499             1030
## 65             1450              200              435             1002
## 66             2088               33              621              367
## 67             1674               51              438              794
## 68             1851               24              398              623
## 69             1427               24              536              623
## 70             1546               23              648              666
## 71             1705               39              503              368
## 72             1507               47              492              527
## 73             1515              163              616              714
## 74             1556              244              584              841
## 75             1573              106              379              938
## 76             1558              171              474             1042
## 77             1457              137              670             1011
## 78             1419              164              488             1006
## 79             1351               20              403             1006
## 80             1495               11              416             1006
## 81             1716              110              582              479
## 82             1764              104              516              635
## 83             1898              136              569              520
## 84             1614               78              567              656
## 85             1548              164              693              829
## 86             1566              141              491              634
## 87             1367              156              506              857
## 88             1494              102              537              696
## 89             1458              109              651              625
## 90             1530              198              630             1061
## 91             1731               37              637              619
## 92            10814              336             2008              735
## 93             1680               31              517              413
## 94             1614               13              367              413
## 95             1544               21              451              413
## 96             1457               31              508              413
## 97             1518               25              753              583
## 98             1932               65              652              421
## 99             1712               40              663              468
## 100            1718               57              659              471
## 101            1637               63              526              579
## 102            1453               84              563              527
## 103            1637              120              560              667
## 104            1490              177              642              815
## 105            1413              204              546             1268
## 106            2901               64              505              930
## 107            1726               65              432             1462
## 108            1461              166              470             1145
## 109            1458              187              590              999
## 110            1734               33              482             1090
## 111            1431              118              591              675
## 112            1469               98              498              644
## 113            1633              115              508              709
## 114            1603              132              442              758
## 115            1487              117              400              832
## 116            1483              102              504              889
## 117            1604              153              541              944
## 118            1415              140              524              921
## 119            1445              126              424             1008
## 120            1576               34              472              588
## 121            1721               33              571              315
## 122            1280               17              461              315
## 123            1359               22              403              315
## 124            1155               31              358              315
## 125            1299               27              481              782
## 126            1737               62              376              352
## 127            1813               72              490              430
## 128            1473               43              413              554
## 129            1721              111              565              509
## 130            1830              135              532              599
## 131            1733               90              622              631
## 132            1547               68              633              535
## 133            1373              130              478              966
## 134            1649              178              593             1295
## 135            1450              203              536             1092
## 136            2985               36              524              792
## 137            1335              120              500              909
## 138            1464               98              438              681
## 139            1477               82              511              779
## 140            1426              125              555              932
## 141            1346               12              326              873
## 142            1347               10              418              873
## 143            1795               70              646              446
## 144            1536               66              566              709
## 145            1419               56              642              672
## 146            1410              123              583              811
## 147            1396              150              554              969
## 148            1472               82              604              684
## 149            1544              112              526              693
## 150            1453              141              502              779
## 151            1446              196              501              977
## 152            1486              107              512             1002
## 153           22768                0              221              648
## 154            1372              103              353              932
## 155            1365               98              547              958
## 156            1314              112              436             1031
## 157            1469              200              547             1071
## 158            2073               48              489              963
## 159            2000               35              547              559
## 160            1420               18              469              559
## 161            1862              168              712              630
## 162            1869              174              839              622
## 163            1729              123              714              554
## 164            1879              204              785              666
## 165            1720              193              785              672
## 166            1638              154              689              529
## 167            1562              161              622              785
## 168            1479              154              521              604
## 169            1322              147              427             1027
## 170            1462              163              536              903
## 171            1638               25              551              903
## 172            1583               37              598              613
## 173            1585               71              610              527
## 174            1777               62              610              361
## 175            1634              111              571              604
## 176            1451               67              669              623
## 177            1444               99              755              621
## 178            1466              124              531              805
## 179            1442              122              568              824
## 180            1400              148              617              953
## 181            1335              115              600              828
## 182            1432              199              593             1056
## 183            1474              156              580              926
## 184            1450              205              609             1008
## 185           10935              173             1399              378
## 186            2033               43              476              576
## 187            1987               63              792              736
## 188            2347                8              385              970
## 189            1932               43              477              870
## 190            2545               93              709              401
## 191            1440               27              428              401
## 192            1548               18              461              401
## 193            1552               72              318              595
## 194            1635               68              433              545
## 195            1749               66              471              632
## 196            1414               62              497              554
## 197            1513              101              487              662
## 198            1439              146              722              745
## 199            1453              134              647              745
## 200            1576              137              634              964
## 201            1398              146              500             1105
## 202            1448              117              510              969
## 203            1315              103              525             1080
## 204            2297              157              852              990
## 205            1417              112              506              831
## 206            1352              125              640              906
## 207            1640              119              629             1119
## 208            1390              116              519             1032
## 209            1810               64              632              703
## 210            1654               42              614              725
## 211            2264               75              674              323
## 212            1860               32              454              408
## 213            1489               55              581              645
## 214            1329              102              538              802
## 215            1397              101              521              722
## 216            1653              133              538              827
## 217            1522              130              444              871
## 218            1550              133              474              878
## 219            1412               98              438              841
## 220            1361              112              567              971
## 221            1621              159              577             1231
## 222            1395              107              393             1060
## 223            1506              168              564             1032
## 224            1446              144              421             1080
## 225            6893               41              353              324
## 226            1332               95              540              780
## 227            1442              136              484              917
## 228            1413              157              602             1177
## 229            1416              130              600              977
## 230            2203               48              521             1030
## 231            1370               25              578             1030
## 232            1766               84              526              437
## 233            1496              147              694              696
## 234            1496              196              504              792
## 235            1392              134              568              842
## 236            1326               80              515              850
## 237            1499              112              528              980
## 238            1345              141              471              973
## 239            1988               81              665              436
## 240            1682               43              519              727
## 241            1705              100              529              573
## 242            1667              110              602              524
## 243            1658               70              570              540
## 244            1541              101              451              781
## 245            1209               62              556             1025
## 246            1636              126              486              597
## 247            1470              122              426              817
## 248            1472              181              483              984
## 249            1374              100              454              653
## 250            1489              195              470             1094
## 251            1457              187              522             1142
## 252            3141               19              210              849
## 253            2031               69              789              558
## 254            7371              162             1782             9963
## 255            1299               99              511              893
## 256            1345              125              695              777
## 257            1381              102              463              976
## 258            1410              122              542              860
## 259            1423              172              420             1084
##     TEAM_FIELDING_E TEAM_FIELDING_DP
## 1               140              156
## 2               135              164
## 3               156              153
## 4               124              154
## 5               616              130
## 6               572              105
## 7               490              105
## 8               328              104
## 9               226              132
## 10              184              145
## 11              200              183
## 12              150              178
## 13              137              167
## 14              125              160
## 15              115              114
## 16              146              180
## 17              154              126
## 18              115              172
## 19              301               83
## 20              232              174
## 21              166              158
## 22              155              174
## 23              179              153
## 24              160              174
## 25              105              164
## 26              102              156
## 27             1224              156
## 28              232              146
## 29              218              130
## 30              199              135
## 31              178              146
## 32              167              166
## 33              146              174
## 34              178              177
## 35              130              154
## 36              156              131
## 37              136              147
## 38              133              163
## 39              137              162
## 40              143              128
## 41              130              147
## 42               93              123
## 43             1568              123
## 44              470              123
## 45              413              123
## 46              537              123
## 47              500              123
## 48              284              100
## 49              281              127
## 50              237              118
## 51              177              171
## 52              154              164
## 53              162              147
## 54              119              149
## 55              174              149
## 56              114              142
## 57              411              119
## 58              250              100
## 59              332              106
## 60              304              107
## 61              200              134
## 62              142              189
## 63              126              132
## 64              100              167
## 65               94              166
## 66              321              166
## 67              414              119
## 68              373              137
## 69              327              127
## 70              314              114
## 71              193              168
## 72              127              203
## 73              144              204
## 74              119              155
## 75              144              144
## 76              168              158
## 77              116              150
## 78              125              131
## 79              270              100
## 80              262              119
## 81              179              173
## 82              184              156
## 83              191              162
## 84              173              202
## 85              163              148
## 86              133              174
## 87              114              127
## 88              131              146
## 89              123              129
## 90              110              146
## 91              445              146
## 92             1261              146
## 93              398              133
## 94              285               85
## 95              286               93
## 96              296               83
## 97              271              113
## 98              245              113
## 99              207              159
## 100             221              183
## 101             187              176
## 102             203              149
## 103             138              157
## 104             130              138
## 105             135              157
## 106             652              154
## 107             743              154
## 108             103              174
## 109             101              136
## 110             609              136
## 111             155              151
## 112             150              153
## 113             141              150
## 114             127              140
## 115             129              157
## 116             123              162
## 117             126              190
## 118             130              153
## 119             125              163
## 120             581              163
## 121             344              163
## 122             363               92
## 123             287              103
## 124             254               69
## 125             246              131
## 126             219              146
## 127             221              138
## 128             239              124
## 129             203              120
## 130             178              176
## 131             192              150
## 132             145              158
## 133             179              118
## 134             146              135
## 135              73              145
## 136             780               75
## 137             127              168
## 138             137              157
## 139              89              146
## 140             131              148
## 141             336              104
## 142             294               95
## 143             193              173
## 144             222              170
## 145             137              160
## 146             135              167
## 147             172              158
## 148             146              171
## 149             134              203
## 150             120              139
## 151             118              168
## 152              93              146
## 153            1473              146
## 154             166              154
## 155             112              135
## 156             151              171
## 157             104              131
## 158             680              131
## 159             488               93
## 160             352              101
## 161             219              139
## 162             177              139
## 163             164              124
## 164             173              157
## 165             178              141
## 166             126              169
## 167             129              193
## 168             124              185
## 169             126              164
## 170             112              165
## 171             280              123
## 172             224              114
## 173             187              141
## 174             204              130
## 175             224              140
## 176             150              169
## 177             147              156
## 178             175              197
## 179             134              157
## 180             137              162
## 181             145              131
## 182             142              122
## 183             105              151
## 184             102              144
## 185            1172              144
## 186             643              144
## 187             566              144
## 188            1056              144
## 189             658              144
## 190             456              144
## 191             427               99
## 192             293              106
## 193             246              143
## 194             195              166
## 195             214              152
## 196             246              158
## 197             221              133
## 198             116              123
## 199             151              147
## 200             136              143
## 201             158              154
## 202             113              147
## 203             113              135
## 204             130              136
## 205             121              138
## 206             152              117
## 207             108              156
## 208             105              134
## 209             471              134
## 210             570              134
## 211             441              134
## 212             392              134
## 213             243              138
## 214             190              176
## 215             175              184
## 216             135              171
## 217             137              195
## 218             145              137
## 219             128              142
## 220             126              130
## 221             136              155
## 222             140              161
## 223             132              169
## 224             104              190
## 225            1217              190
## 226             141              155
## 227             135              135
## 228             141              155
## 229             109              136
## 230             743              136
## 231             244               79
## 232             198              164
## 233             144              190
## 234             139              150
## 235             178              136
## 236             157              125
## 237             169              134
## 238             108              151
## 239             523              151
## 240             276              146
## 241             208              148
## 242             118              170
## 243             143              158
## 244             122              174
## 245             175              155
## 246             148              170
## 247             139              139
## 248             130              145
## 249             131              164
## 250              97              184
## 251             107              159
## 252             994               95
## 253             492               95
## 254             936               95
## 255             139              146
## 256             163              156
## 257             124              113
## 258             159              144
## 259             131              150

BUILD MODELS First, I will use the most generic model.

## 
## Call:
## lm(formula = TARGET_WINS ~ ., data = mb_train_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -30.5627  -6.6932  -0.1328   6.5249  27.8525 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      57.912438   6.642839   8.718  < 2e-16 ***
## TEAM_BATTING_H    0.015434   0.019626   0.786   0.4318    
## TEAM_BATTING_2B  -0.070472   0.009369  -7.522 9.36e-14 ***
## TEAM_BATTING_3B   0.161551   0.022192   7.280 5.43e-13 ***
## TEAM_BATTING_HR   0.073952   0.085392   0.866   0.3866    
## TEAM_BATTING_BB   0.043765   0.046454   0.942   0.3463    
## TEAM_BATTING_SO   0.018250   0.023463   0.778   0.4368    
## TEAM_BASERUN_SB   0.035880   0.008687   4.130 3.83e-05 ***
## TEAM_BASERUN_CS   0.052124   0.018227   2.860   0.0043 ** 
## TEAM_PITCHING_H   0.019044   0.018381   1.036   0.3003    
## TEAM_PITCHING_HR  0.022997   0.082092   0.280   0.7794    
## TEAM_PITCHING_BB -0.004180   0.044692  -0.094   0.9255    
## TEAM_PITCHING_SO -0.038176   0.022447  -1.701   0.0892 .  
## TEAM_FIELDING_E  -0.155876   0.009946 -15.672  < 2e-16 ***
## TEAM_FIELDING_DP -0.112885   0.013137  -8.593  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.556 on 1471 degrees of freedom
##   (790 observations deleted due to missingness)
## Multiple R-squared:  0.4386, Adjusted R-squared:  0.4333 
## F-statistic:  82.1 on 14 and 1471 DF,  p-value: < 2.2e-16

For the second model, I will remove some variables to see if that effects the R^2 value.

## 
## Call:
## lm(formula = TARGET_WINS ~ TEAM_BATTING_2B + TEAM_BATTING_3B + 
##     TEAM_BASERUN_SB + TEAM_BASERUN_CS + TEAM_PITCHING_SO + TEAM_FIELDING_E + 
##     TEAM_FIELDING_DP, data = mb_train_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -30.469  -7.559  -0.167   7.678  36.342 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      113.921797   4.373328  26.049  < 2e-16 ***
## TEAM_BATTING_2B    0.027494   0.007357   3.737 0.000193 ***
## TEAM_BATTING_3B    0.188848   0.023456   8.051 1.67e-15 ***
## TEAM_BASERUN_SB    0.033353   0.009961   3.349 0.000833 ***
## TEAM_BASERUN_CS   -0.011436   0.021033  -0.544 0.586725    
## TEAM_PITCHING_SO  -0.015827   0.001946  -8.134 8.71e-16 ***
## TEAM_FIELDING_E   -0.185080   0.011344 -16.316  < 2e-16 ***
## TEAM_FIELDING_DP  -0.066792   0.015129  -4.415 1.08e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.22 on 1478 degrees of freedom
##   (790 observations deleted due to missingness)
## Multiple R-squared:  0.2223, Adjusted R-squared:  0.2186 
## F-statistic: 60.36 on 7 and 1478 DF,  p-value: < 2.2e-16

As we saw in the data exploration section, many of our variables are skewed. The Box Cox can transform variables to be more normal, so for our third model, we will use this method.

mod3 <- lm(formula = TARGET_WINS ~ ., data = mb_train_data)
model3 <- boxcox(mod3)

model3_bc <- lm(y ~ x, data = model3)
summary(model3_bc)
## 
## Call:
## lm(formula = y ~ x, data = model3)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -97.51 -33.02  11.99  39.18  48.28 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2358.091      4.356 -541.32   <2e-16 ***
## x              84.808      3.735   22.71   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43.56 on 98 degrees of freedom
## Multiple R-squared:  0.8403, Adjusted R-squared:  0.8387 
## F-statistic: 515.6 on 1 and 98 DF,  p-value: < 2.2e-16

MODEL SELECTION

We will compare all the models qq plots.

qqnorm(model1$residuals); qqline(model1$residuals)

qqnorm(model3_bc$residuals); qqline(model3_bc$residuals)

Although the residual plot is a better fit for model 1, mean squared error, R^2 value, are better for model 3. For this reason, I will choose model 3 to make predictions using the evaluation data.

pred1 <- predict.lm(mod3, newdata = mb_eval_data)
plot(pred1)

For each team’s index, we can now see their predicted wins.