DATA EXPLORATION
summary(mb_eval_data)
## INDEX TEAM_BATTING_H TEAM_BATTING_2B TEAM_BATTING_3B
## Min. : 9 Min. : 819 Min. : 44.0 Min. : 14.00
## 1st Qu.: 708 1st Qu.:1387 1st Qu.:210.0 1st Qu.: 35.00
## Median :1249 Median :1455 Median :239.0 Median : 52.00
## Mean :1264 Mean :1469 Mean :241.3 Mean : 55.91
## 3rd Qu.:1832 3rd Qu.:1548 3rd Qu.:278.5 3rd Qu.: 72.00
## Max. :2525 Max. :2170 Max. :376.0 Max. :155.00
##
## TEAM_BATTING_HR TEAM_BATTING_BB TEAM_BATTING_SO TEAM_BASERUN_SB
## Min. : 0.00 Min. : 15.0 Min. : 0.0 Min. : 0.0
## 1st Qu.: 44.50 1st Qu.:436.5 1st Qu.: 545.0 1st Qu.: 59.0
## Median :101.00 Median :509.0 Median : 686.0 Median : 92.0
## Mean : 95.63 Mean :499.0 Mean : 709.3 Mean :123.7
## 3rd Qu.:135.50 3rd Qu.:565.5 3rd Qu.: 912.0 3rd Qu.:151.8
## Max. :242.00 Max. :792.0 Max. :1268.0 Max. :580.0
## NA's :18 NA's :13
## TEAM_BASERUN_CS TEAM_BATTING_HBP TEAM_PITCHING_H TEAM_PITCHING_HR
## Min. : 0.00 Min. :42.00 Min. : 1155 Min. : 0.0
## 1st Qu.: 38.00 1st Qu.:53.50 1st Qu.: 1426 1st Qu.: 52.0
## Median : 49.50 Median :62.00 Median : 1515 Median :104.0
## Mean : 52.32 Mean :62.37 Mean : 1813 Mean :102.1
## 3rd Qu.: 63.00 3rd Qu.:67.50 3rd Qu.: 1681 3rd Qu.:142.5
## Max. :154.00 Max. :96.00 Max. :22768 Max. :336.0
## NA's :87 NA's :240
## TEAM_PITCHING_BB TEAM_PITCHING_SO TEAM_FIELDING_E TEAM_FIELDING_DP
## Min. : 136.0 Min. : 0.0 Min. : 73.0 Min. : 69.0
## 1st Qu.: 471.0 1st Qu.: 613.0 1st Qu.: 131.0 1st Qu.:131.0
## Median : 526.0 Median : 745.0 Median : 163.0 Median :148.0
## Mean : 552.4 Mean : 799.7 Mean : 249.7 Mean :146.1
## 3rd Qu.: 606.5 3rd Qu.: 938.0 3rd Qu.: 252.0 3rd Qu.:164.0
## Max. :2008.0 Max. :9963.0 Max. :1568.0 Max. :204.0
## NA's :18 NA's :31
We can see which variables have a lot of missing values above, and below, we can see which ariables are normal and whihc are skewed.
mb_eval_data %>% gather() %>% head()
## key value
## 1 INDEX 9
## 2 INDEX 10
## 3 INDEX 14
## 4 INDEX 47
## 5 INDEX 60
## 6 INDEX 63
ggplot(gather(mb_eval_data), aes(value)) +
geom_histogram(bins = 10) +
facet_wrap(~key, scales = 'free_x')
## Warning: Removed 407 rows containing non-finite values (stat_bin).
DATA PREPARATION
TEAM_BATTING_HBP has 240 missing values so we will remove it, we will also remove index, because it doesn’t provide any information, and I will fill columns with NA values using tidyr fill function.
#TEAM_BATTING_HBP has 240 missing values so we will remove it, we will also remove index, because it doesn't provide any information
mb_eval_data <- subset(mb_eval_data, select = -c(INDEX, TEAM_BATTING_HBP))
#apply same transformation to the training data
mb_train_data <- subset(mb_train_data, select = -c(INDEX, TEAM_BATTING_HBP))
#fill columns with NA values using tidyr fill function
mb_eval_data %>% fill(TEAM_BATTING_SO, TEAM_BASERUN_SB, TEAM_BASERUN_CS, TEAM_PITCHING_SO, TEAM_FIELDING_DP)
## TEAM_BATTING_H TEAM_BATTING_2B TEAM_BATTING_3B TEAM_BATTING_HR
## 1 1209 170 33 83
## 2 1221 151 29 88
## 3 1395 183 29 93
## 4 1539 309 29 159
## 5 1445 203 68 5
## 6 1431 236 53 10
## 7 1430 219 55 37
## 8 1385 158 42 33
## 9 1259 177 78 23
## 10 1397 212 42 58
## 11 1427 243 40 50
## 12 1496 239 55 164
## 13 1420 223 57 186
## 14 1460 232 22 176
## 15 1411 195 22 141
## 16 1434 192 30 153
## 17 1297 204 22 130
## 18 1446 284 25 166
## 19 1276 162 52 17
## 20 1715 322 72 116
## 21 1520 295 68 49
## 22 1597 291 38 98
## 23 1453 256 67 105
## 24 1378 225 26 118
## 25 1516 277 24 152
## 26 1556 288 20 164
## 27 1499 183 28 3
## 28 1464 263 58 47
## 29 1558 318 66 32
## 30 1502 308 36 39
## 31 1596 320 58 130
## 32 1546 260 59 110
## 33 1516 282 53 115
## 34 1550 275 47 146
## 35 1447 260 54 148
## 36 1450 252 28 203
## 37 1347 239 36 130
## 38 1561 260 56 214
## 39 1578 252 26 135
## 40 1598 259 45 181
## 41 1497 322 21 145
## 42 1569 310 39 124
## 43 1119 118 33 7
## 44 1609 196 120 62
## 45 1514 175 70 80
## 46 1657 237 119 41
## 47 1746 213 106 69
## 48 1319 224 70 56
## 49 1293 204 70 18
## 50 1420 235 70 36
## 51 1496 269 54 76
## 52 1625 289 38 80
## 53 1391 239 50 145
## 54 1319 203 43 130
## 55 1411 251 35 107
## 56 1420 221 41 104
## 57 1552 206 106 38
## 58 1280 203 72 15
## 59 1120 122 61 7
## 60 1390 183 84 18
## 61 1554 252 81 29
## 62 1410 218 69 45
## 63 1507 262 28 159
## 64 1481 284 19 242
## 65 1450 253 23 200
## 66 1637 260 93 26
## 67 1436 202 82 44
## 68 1600 218 89 21
## 69 1348 168 76 23
## 70 1460 191 111 22
## 71 1621 255 126 37
## 72 1433 241 49 45
## 73 1440 232 48 155
## 74 1479 211 34 232
## 75 1573 281 36 106
## 76 1558 224 42 171
## 77 1385 225 46 130
## 78 1419 250 27 164
## 79 1284 198 61 19
## 80 1403 200 68 10
## 81 1631 358 48 105
## 82 1666 343 82 98
## 83 1804 376 86 129
## 84 1534 284 53 74
## 85 1472 222 52 156
## 86 1489 229 21 134
## 87 1367 198 21 156
## 88 1485 222 46 101
## 89 1458 225 32 109
## 90 1530 334 30 198
## 91 1421 160 72 30
## 92 1869 301 122 58
## 93 1400 169 66 26
## 94 1494 193 81 12
## 95 1449 223 62 20
## 96 1385 200 76 29
## 97 1443 218 99 24
## 98 1825 284 106 61
## 99 1627 296 95 38
## 100 1623 299 106 54
## 101 1556 298 82 60
## 102 1381 228 39 80
## 103 1556 272 46 114
## 104 1416 206 32 168
## 105 1413 257 21 204
## 106 1504 253 102 33
## 107 1193 165 68 45
## 108 1461 325 30 166
## 109 1458 294 36 187
## 110 1295 237 64 25
## 111 1431 263 58 118
## 112 1469 305 59 98
## 113 1633 266 59 115
## 114 1603 295 58 132
## 115 1487 269 52 117
## 116 1474 318 44 101
## 117 1594 296 52 152
## 118 1415 285 42 140
## 119 1445 289 34 126
## 120 1362 199 81 29
## 121 1572 195 106 30
## 122 1209 168 56 16
## 123 1242 155 69 20
## 124 1098 116 63 29
## 125 1235 175 77 26
## 126 1651 247 80 59
## 127 1712 265 85 68
## 128 1391 206 78 41
## 129 1625 299 73 105
## 130 1740 319 77 128
## 131 1626 303 55 84
## 132 1471 277 36 65
## 133 1373 232 14 130
## 134 1466 215 35 158
## 135 1450 226 30 203
## 136 1474 223 57 18
## 137 1335 228 49 120
## 138 1455 233 36 97
## 139 1477 272 35 82
## 140 1426 240 25 125
## 141 1255 183 61 11
## 142 1264 141 79 9
## 143 1695 310 89 66
## 144 1460 274 66 63
## 145 1349 237 46 53
## 146 1340 226 40 117
## 147 1396 257 42 150
## 148 1472 259 47 82
## 149 1544 256 46 112
## 150 1453 282 41 141
## 151 1446 257 39 196
## 152 1468 289 30 106
## 153 1546 44 29 0
## 154 1372 195 31 103
## 155 1365 203 29 98
## 156 1314 172 26 112
## 157 1469 323 41 200
## 158 1382 185 86 32
## 159 1642 218 135 29
## 160 1324 153 65 17
## 161 1770 313 116 160
## 162 1765 293 83 164
## 163 1590 277 76 113
## 164 1775 334 88 193
## 165 1635 297 77 183
## 166 1557 264 79 146
## 167 1485 210 57 153
## 168 1461 229 41 152
## 169 1322 208 19 147
## 170 1462 281 18 163
## 171 1537 217 115 23
## 172 1495 236 85 35
## 173 1468 280 70 66
## 174 1689 296 74 59
## 175 1533 301 59 104
## 176 1379 229 55 64
## 177 1373 223 37 94
## 178 1394 215 43 118
## 179 1371 223 36 116
## 180 1400 210 28 148
## 181 1327 209 33 114
## 182 1432 263 33 199
## 183 1474 251 22 156
## 184 1450 279 28 205
## 185 2025 292 140 32
## 186 1669 281 102 35
## 187 1631 291 79 52
## 188 1420 299 79 5
## 189 1312 230 52 29
## 190 2058 336 90 75
## 191 1351 181 58 25
## 192 1452 199 87 17
## 193 1466 242 57 68
## 194 1534 256 44 64
## 195 1609 311 38 61
## 196 1344 207 28 59
## 197 1438 239 41 96
## 198 1368 225 53 139
## 199 1381 218 52 127
## 200 1498 250 59 130
## 201 1389 206 53 145
## 202 1448 224 49 117
## 203 1307 225 58 102
## 204 1517 250 38 104
## 205 1417 245 25 112
## 206 1352 209 45 125
## 207 1458 296 34 106
## 208 1390 290 35 116
## 209 1475 257 80 52
## 210 1378 178 85 35
## 211 1817 277 155 60
## 212 1711 213 133 29
## 213 1415 217 112 52
## 214 1263 190 32 97
## 215 1328 221 63 96
## 216 1571 248 59 126
## 217 1522 235 70 130
## 218 1550 278 57 133
## 219 1412 237 33 98
## 220 1344 243 46 111
## 221 1441 276 30 141
## 222 1395 271 35 107
## 223 1506 320 31 168
## 224 1437 269 39 143
## 225 2170 241 70 13
## 226 1324 194 53 94
## 227 1442 239 25 136
## 228 1413 279 37 157
## 229 1416 269 39 130
## 230 1523 216 97 33
## 231 1294 169 51 24
## 232 1668 251 98 79
## 233 1422 215 53 140
## 234 1524 231 31 200
## 235 1392 227 41 134
## 236 1318 200 44 80
## 237 1499 229 26 112
## 238 1345 215 48 141
## 239 1620 210 139 66
## 240 1339 185 80 34
## 241 1621 272 86 95
## 242 1585 288 62 105
## 243 1576 269 46 67
## 244 1541 300 49 101
## 245 1149 175 18 59
## 246 1626 265 27 125
## 247 1461 228 29 121
## 248 1472 284 39 181
## 249 1366 218 39 99
## 250 1489 287 36 195
## 251 1457 305 38 187
## 252 1454 220 52 9
## 253 1642 221 98 56
## 254 819 72 72 18
## 255 1251 162 23 95
## 256 1345 190 23 125
## 257 1381 263 37 102
## 258 1410 270 36 122
## 259 1423 339 34 172
## TEAM_BATTING_BB TEAM_BATTING_SO TEAM_BASERUN_SB TEAM_BASERUN_CS
## 1 447 1080 62 50
## 2 516 929 54 39
## 3 509 816 59 47
## 4 486 914 148 57
## 5 95 416 148 57
## 6 215 377 148 57
## 7 568 527 365 57
## 8 356 609 185 57
## 9 466 689 150 57
## 10 452 584 52 57
## 11 495 640 64 57
## 12 462 670 48 28
## 13 511 751 31 21
## 14 503 680 27 8
## 15 485 665 59 48
## 16 434 747 57 46
## 17 491 1008 84 55
## 18 565 1041 77 39
## 19 383 1041 138 39
## 20 527 397 90 83
## 21 628 459 77 49
## 22 629 563 54 43
## 23 653 651 40 41
## 24 533 677 18 36
## 25 431 902 89 36
## 26 474 878 121 32
## 27 83 0 121 32
## 28 385 479 63 66
## 29 634 439 83 64
## 30 432 602 45 46
## 31 718 596 70 54
## 32 630 541 72 65
## 33 723 695 47 38
## 34 765 723 29 20
## 35 532 935 39 33
## 36 594 855 50 48
## 37 546 897 69 31
## 38 531 911 66 47
## 39 567 780 48 47
## 40 500 842 38 25
## 41 599 711 41 34
## 42 623 728 65 36
## 43 37 0 65 36
## 44 781 599 536 36
## 45 615 612 392 36
## 46 593 334 325 36
## 47 526 429 324 36
## 48 416 677 176 131
## 49 437 630 134 131
## 50 450 443 121 136
## 51 412 500 55 136
## 52 517 486 72 136
## 53 499 1041 70 49
## 54 415 854 41 30
## 55 471 912 93 64
## 56 417 816 77 51
## 57 566 401 334 51
## 58 392 616 227 51
## 59 427 616 194 51
## 60 445 616 216 51
## 61 494 414 174 51
## 62 738 627 65 58
## 63 573 907 107 52
## 64 499 1030 78 51
## 65 435 1002 137 67
## 66 487 288 446 67
## 67 376 681 160 67
## 68 344 538 152 67
## 69 506 538 296 67
## 70 612 629 306 67
## 71 478 350 54 67
## 72 468 501 52 67
## 73 586 679 49 32
## 74 555 799 47 23
## 75 379 938 59 55
## 76 474 1042 79 56
## 77 637 961 147 66
## 78 488 1006 124 56
## 79 383 1006 186 56
## 80 390 1006 201 56
## 81 553 455 55 34
## 82 487 600 67 57
## 83 541 494 69 56
## 84 539 624 50 44
## 85 659 788 48 41
## 86 467 603 61 26
## 87 506 857 109 46
## 88 534 692 88 88
## 89 651 625 151 68
## 90 630 1061 143 60
## 91 523 508 289 60
## 92 347 127 399 60
## 93 431 344 156 60
## 94 340 344 207 60
## 95 423 344 298 60
## 96 483 344 262 60
## 97 716 554 254 154
## 98 616 398 101 94
## 99 630 445 93 76
## 100 622 445 149 77
## 101 500 550 72 53
## 102 535 501 41 42
## 103 532 634 32 37
## 104 610 775 36 18
## 105 546 1268 87 50
## 106 262 482 87 50
## 107 299 1011 87 50
## 108 470 1145 89 40
## 109 590 999 89 30
## 110 360 814 129 30
## 111 591 675 155 75
## 112 498 644 216 84
## 113 508 709 185 43
## 114 442 758 133 48
## 115 400 832 106 64
## 116 501 884 108 62
## 117 538 938 128 39
## 118 524 921 140 65
## 119 424 1008 53 33
## 120 408 508 386 33
## 121 522 288 297 33
## 122 435 288 217 33
## 123 368 288 132 33
## 124 340 288 119 33
## 125 457 743 159 33
## 126 357 335 83 63
## 127 463 406 39 32
## 128 390 523 112 32
## 129 534 481 85 32
## 130 506 569 56 32
## 131 584 592 59 32
## 132 602 509 85 32
## 133 478 966 155 67
## 134 527 1151 143 51
## 135 536 1092 102 41
## 136 259 391 102 41
## 137 500 909 106 75
## 138 435 677 52 57
## 139 511 779 256 115
## 140 555 932 138 93
## 141 304 814 161 93
## 142 392 814 181 93
## 143 610 421 110 44
## 144 538 674 54 53
## 145 610 639 50 39
## 146 554 771 14 40
## 147 554 969 92 33
## 148 604 684 99 56
## 149 526 693 66 45
## 150 502 779 68 44
## 151 501 977 81 61
## 152 506 990 119 61
## 153 15 44 0 0
## 154 353 932 36 31
## 155 547 958 89 43
## 156 436 1031 141 64
## 157 547 1071 146 35
## 158 326 642 146 35
## 159 449 459 252 35
## 160 437 459 201 35
## 161 677 599 96 63
## 162 792 587 146 72
## 163 657 510 74 50
## 164 741 629 82 42
## 165 746 639 63 38
## 166 655 503 25 25
## 167 591 746 52 40
## 168 515 597 66 47
## 169 427 1027 119 45
## 170 536 903 78 37
## 171 517 903 275 37
## 172 565 579 234 37
## 173 565 488 60 50
## 174 580 343 103 66
## 175 536 567 64 36
## 176 636 592 39 35
## 177 718 590 55 45
## 178 505 765 42 32
## 179 540 783 17 12
## 180 617 953 100 39
## 181 596 823 343 124
## 182 593 1056 140 63
## 183 580 926 129 54
## 184 609 1008 46 20
## 185 259 70 259 20
## 186 391 473 580 20
## 187 650 604 307 20
## 188 233 587 307 20
## 189 324 591 307 20
## 190 573 324 341 20
## 191 402 324 169 20
## 192 433 324 192 20
## 193 300 562 106 88
## 194 406 511 59 88
## 195 433 581 57 88
## 196 472 527 57 88
## 197 463 629 72 88
## 198 686 708 46 34
## 199 615 708 47 24
## 200 603 916 54 35
## 201 497 1098 46 32
## 202 510 969 56 42
## 203 522 1073 72 64
## 204 563 654 156 70
## 205 506 831 128 76
## 206 640 906 143 75
## 207 559 995 81 28
## 208 519 1032 92 56
## 209 515 573 284 56
## 210 512 604 246 56
## 211 541 259 319 56
## 212 418 375 195 56
## 213 552 613 168 56
## 214 511 762 45 43
## 215 495 686 23 23
## 216 511 786 36 25
## 217 444 871 66 34
## 218 474 878 260 120
## 219 438 841 96 62
## 220 560 959 120 61
## 221 513 1094 95 62
## 222 393 1060 159 51
## 223 564 1032 86 40
## 224 418 1073 63 40
## 225 111 102 92 76
## 226 537 775 101 58
## 227 484 917 96 68
## 228 602 1177 131 53
## 229 600 977 99 44
## 230 360 712 99 44
## 231 546 712 217 44
## 232 497 413 145 121
## 233 660 662 44 121
## 234 513 807 72 49
## 235 568 842 90 59
## 236 512 845 101 58
## 237 528 980 126 76
## 238 471 973 95 57
## 239 542 355 233 57
## 240 413 579 149 57
## 241 503 545 87 57
## 242 572 498 39 57
## 243 542 513 58 57
## 244 451 781 117 54
## 245 529 974 133 77
## 246 483 593 92 49
## 247 423 812 82 50
## 248 483 984 113 67
## 249 451 649 28 52
## 250 470 1094 156 55
## 251 522 1142 71 18
## 252 97 393 71 18
## 253 638 451 319 18
## 254 198 1107 319 18
## 255 492 860 71 69
## 256 695 777 77 68
## 257 463 976 196 63
## 258 542 860 228 56
## 259 420 1084 75 46
## TEAM_PITCHING_H TEAM_PITCHING_HR TEAM_PITCHING_BB TEAM_PITCHING_SO
## 1 1209 83 447 1080
## 2 1221 88 516 929
## 3 1395 93 509 816
## 4 1539 159 486 914
## 5 3902 14 257 1123
## 6 2793 20 420 736
## 7 1544 40 613 569
## 8 1626 39 418 715
## 9 1342 25 497 734
## 10 1489 62 482 622
## 11 1501 53 521 673
## 12 1574 173 486 705
## 13 1494 196 538 790
## 14 1536 185 529 715
## 15 1411 141 485 665
## 16 1434 153 434 747
## 17 1313 132 497 1021
## 18 1464 168 572 1054
## 19 1351 18 406 1054
## 20 1816 123 558 420
## 21 1620 52 669 489
## 22 1702 104 670 600
## 23 1559 113 701 698
## 24 1450 124 561 712
## 25 1516 152 431 902
## 26 1556 164 474 878
## 27 5167 10 286 0
## 28 1540 49 405 504
## 29 1639 34 667 462
## 30 1601 42 460 642
## 31 1679 137 755 627
## 32 1648 117 671 577
## 33 1595 121 761 731
## 34 1631 154 805 761
## 35 1465 150 539 947
## 36 1450 203 594 855
## 37 1408 136 571 938
## 38 1571 215 534 917
## 39 2367 203 851 1170
## 40 1598 181 500 842
## 41 1506 146 603 715
## 42 1569 124 623 728
## 43 4120 26 136 0
## 44 1931 74 937 719
## 45 1803 95 733 729
## 46 2114 52 756 426
## 47 2176 86 655 535
## 48 1397 59 440 717
## 49 1360 19 460 663
## 50 1494 38 473 466
## 51 1574 80 433 526
## 52 1709 84 544 511
## 53 1391 145 499 1041
## 54 1319 130 415 854
## 55 1411 107 471 912
## 56 1420 104 417 816
## 57 1849 45 674 478
## 58 1346 16 412 648
## 59 1186 7 452 648
## 60 1462 19 468 648
## 61 1798 34 572 479
## 62 1483 47 776 660
## 63 1516 160 577 913
## 64 1481 242 499 1030
## 65 1450 200 435 1002
## 66 2088 33 621 367
## 67 1674 51 438 794
## 68 1851 24 398 623
## 69 1427 24 536 623
## 70 1546 23 648 666
## 71 1705 39 503 368
## 72 1507 47 492 527
## 73 1515 163 616 714
## 74 1556 244 584 841
## 75 1573 106 379 938
## 76 1558 171 474 1042
## 77 1457 137 670 1011
## 78 1419 164 488 1006
## 79 1351 20 403 1006
## 80 1495 11 416 1006
## 81 1716 110 582 479
## 82 1764 104 516 635
## 83 1898 136 569 520
## 84 1614 78 567 656
## 85 1548 164 693 829
## 86 1566 141 491 634
## 87 1367 156 506 857
## 88 1494 102 537 696
## 89 1458 109 651 625
## 90 1530 198 630 1061
## 91 1731 37 637 619
## 92 10814 336 2008 735
## 93 1680 31 517 413
## 94 1614 13 367 413
## 95 1544 21 451 413
## 96 1457 31 508 413
## 97 1518 25 753 583
## 98 1932 65 652 421
## 99 1712 40 663 468
## 100 1718 57 659 471
## 101 1637 63 526 579
## 102 1453 84 563 527
## 103 1637 120 560 667
## 104 1490 177 642 815
## 105 1413 204 546 1268
## 106 2901 64 505 930
## 107 1726 65 432 1462
## 108 1461 166 470 1145
## 109 1458 187 590 999
## 110 1734 33 482 1090
## 111 1431 118 591 675
## 112 1469 98 498 644
## 113 1633 115 508 709
## 114 1603 132 442 758
## 115 1487 117 400 832
## 116 1483 102 504 889
## 117 1604 153 541 944
## 118 1415 140 524 921
## 119 1445 126 424 1008
## 120 1576 34 472 588
## 121 1721 33 571 315
## 122 1280 17 461 315
## 123 1359 22 403 315
## 124 1155 31 358 315
## 125 1299 27 481 782
## 126 1737 62 376 352
## 127 1813 72 490 430
## 128 1473 43 413 554
## 129 1721 111 565 509
## 130 1830 135 532 599
## 131 1733 90 622 631
## 132 1547 68 633 535
## 133 1373 130 478 966
## 134 1649 178 593 1295
## 135 1450 203 536 1092
## 136 2985 36 524 792
## 137 1335 120 500 909
## 138 1464 98 438 681
## 139 1477 82 511 779
## 140 1426 125 555 932
## 141 1346 12 326 873
## 142 1347 10 418 873
## 143 1795 70 646 446
## 144 1536 66 566 709
## 145 1419 56 642 672
## 146 1410 123 583 811
## 147 1396 150 554 969
## 148 1472 82 604 684
## 149 1544 112 526 693
## 150 1453 141 502 779
## 151 1446 196 501 977
## 152 1486 107 512 1002
## 153 22768 0 221 648
## 154 1372 103 353 932
## 155 1365 98 547 958
## 156 1314 112 436 1031
## 157 1469 200 547 1071
## 158 2073 48 489 963
## 159 2000 35 547 559
## 160 1420 18 469 559
## 161 1862 168 712 630
## 162 1869 174 839 622
## 163 1729 123 714 554
## 164 1879 204 785 666
## 165 1720 193 785 672
## 166 1638 154 689 529
## 167 1562 161 622 785
## 168 1479 154 521 604
## 169 1322 147 427 1027
## 170 1462 163 536 903
## 171 1638 25 551 903
## 172 1583 37 598 613
## 173 1585 71 610 527
## 174 1777 62 610 361
## 175 1634 111 571 604
## 176 1451 67 669 623
## 177 1444 99 755 621
## 178 1466 124 531 805
## 179 1442 122 568 824
## 180 1400 148 617 953
## 181 1335 115 600 828
## 182 1432 199 593 1056
## 183 1474 156 580 926
## 184 1450 205 609 1008
## 185 10935 173 1399 378
## 186 2033 43 476 576
## 187 1987 63 792 736
## 188 2347 8 385 970
## 189 1932 43 477 870
## 190 2545 93 709 401
## 191 1440 27 428 401
## 192 1548 18 461 401
## 193 1552 72 318 595
## 194 1635 68 433 545
## 195 1749 66 471 632
## 196 1414 62 497 554
## 197 1513 101 487 662
## 198 1439 146 722 745
## 199 1453 134 647 745
## 200 1576 137 634 964
## 201 1398 146 500 1105
## 202 1448 117 510 969
## 203 1315 103 525 1080
## 204 2297 157 852 990
## 205 1417 112 506 831
## 206 1352 125 640 906
## 207 1640 119 629 1119
## 208 1390 116 519 1032
## 209 1810 64 632 703
## 210 1654 42 614 725
## 211 2264 75 674 323
## 212 1860 32 454 408
## 213 1489 55 581 645
## 214 1329 102 538 802
## 215 1397 101 521 722
## 216 1653 133 538 827
## 217 1522 130 444 871
## 218 1550 133 474 878
## 219 1412 98 438 841
## 220 1361 112 567 971
## 221 1621 159 577 1231
## 222 1395 107 393 1060
## 223 1506 168 564 1032
## 224 1446 144 421 1080
## 225 6893 41 353 324
## 226 1332 95 540 780
## 227 1442 136 484 917
## 228 1413 157 602 1177
## 229 1416 130 600 977
## 230 2203 48 521 1030
## 231 1370 25 578 1030
## 232 1766 84 526 437
## 233 1496 147 694 696
## 234 1496 196 504 792
## 235 1392 134 568 842
## 236 1326 80 515 850
## 237 1499 112 528 980
## 238 1345 141 471 973
## 239 1988 81 665 436
## 240 1682 43 519 727
## 241 1705 100 529 573
## 242 1667 110 602 524
## 243 1658 70 570 540
## 244 1541 101 451 781
## 245 1209 62 556 1025
## 246 1636 126 486 597
## 247 1470 122 426 817
## 248 1472 181 483 984
## 249 1374 100 454 653
## 250 1489 195 470 1094
## 251 1457 187 522 1142
## 252 3141 19 210 849
## 253 2031 69 789 558
## 254 7371 162 1782 9963
## 255 1299 99 511 893
## 256 1345 125 695 777
## 257 1381 102 463 976
## 258 1410 122 542 860
## 259 1423 172 420 1084
## TEAM_FIELDING_E TEAM_FIELDING_DP
## 1 140 156
## 2 135 164
## 3 156 153
## 4 124 154
## 5 616 130
## 6 572 105
## 7 490 105
## 8 328 104
## 9 226 132
## 10 184 145
## 11 200 183
## 12 150 178
## 13 137 167
## 14 125 160
## 15 115 114
## 16 146 180
## 17 154 126
## 18 115 172
## 19 301 83
## 20 232 174
## 21 166 158
## 22 155 174
## 23 179 153
## 24 160 174
## 25 105 164
## 26 102 156
## 27 1224 156
## 28 232 146
## 29 218 130
## 30 199 135
## 31 178 146
## 32 167 166
## 33 146 174
## 34 178 177
## 35 130 154
## 36 156 131
## 37 136 147
## 38 133 163
## 39 137 162
## 40 143 128
## 41 130 147
## 42 93 123
## 43 1568 123
## 44 470 123
## 45 413 123
## 46 537 123
## 47 500 123
## 48 284 100
## 49 281 127
## 50 237 118
## 51 177 171
## 52 154 164
## 53 162 147
## 54 119 149
## 55 174 149
## 56 114 142
## 57 411 119
## 58 250 100
## 59 332 106
## 60 304 107
## 61 200 134
## 62 142 189
## 63 126 132
## 64 100 167
## 65 94 166
## 66 321 166
## 67 414 119
## 68 373 137
## 69 327 127
## 70 314 114
## 71 193 168
## 72 127 203
## 73 144 204
## 74 119 155
## 75 144 144
## 76 168 158
## 77 116 150
## 78 125 131
## 79 270 100
## 80 262 119
## 81 179 173
## 82 184 156
## 83 191 162
## 84 173 202
## 85 163 148
## 86 133 174
## 87 114 127
## 88 131 146
## 89 123 129
## 90 110 146
## 91 445 146
## 92 1261 146
## 93 398 133
## 94 285 85
## 95 286 93
## 96 296 83
## 97 271 113
## 98 245 113
## 99 207 159
## 100 221 183
## 101 187 176
## 102 203 149
## 103 138 157
## 104 130 138
## 105 135 157
## 106 652 154
## 107 743 154
## 108 103 174
## 109 101 136
## 110 609 136
## 111 155 151
## 112 150 153
## 113 141 150
## 114 127 140
## 115 129 157
## 116 123 162
## 117 126 190
## 118 130 153
## 119 125 163
## 120 581 163
## 121 344 163
## 122 363 92
## 123 287 103
## 124 254 69
## 125 246 131
## 126 219 146
## 127 221 138
## 128 239 124
## 129 203 120
## 130 178 176
## 131 192 150
## 132 145 158
## 133 179 118
## 134 146 135
## 135 73 145
## 136 780 75
## 137 127 168
## 138 137 157
## 139 89 146
## 140 131 148
## 141 336 104
## 142 294 95
## 143 193 173
## 144 222 170
## 145 137 160
## 146 135 167
## 147 172 158
## 148 146 171
## 149 134 203
## 150 120 139
## 151 118 168
## 152 93 146
## 153 1473 146
## 154 166 154
## 155 112 135
## 156 151 171
## 157 104 131
## 158 680 131
## 159 488 93
## 160 352 101
## 161 219 139
## 162 177 139
## 163 164 124
## 164 173 157
## 165 178 141
## 166 126 169
## 167 129 193
## 168 124 185
## 169 126 164
## 170 112 165
## 171 280 123
## 172 224 114
## 173 187 141
## 174 204 130
## 175 224 140
## 176 150 169
## 177 147 156
## 178 175 197
## 179 134 157
## 180 137 162
## 181 145 131
## 182 142 122
## 183 105 151
## 184 102 144
## 185 1172 144
## 186 643 144
## 187 566 144
## 188 1056 144
## 189 658 144
## 190 456 144
## 191 427 99
## 192 293 106
## 193 246 143
## 194 195 166
## 195 214 152
## 196 246 158
## 197 221 133
## 198 116 123
## 199 151 147
## 200 136 143
## 201 158 154
## 202 113 147
## 203 113 135
## 204 130 136
## 205 121 138
## 206 152 117
## 207 108 156
## 208 105 134
## 209 471 134
## 210 570 134
## 211 441 134
## 212 392 134
## 213 243 138
## 214 190 176
## 215 175 184
## 216 135 171
## 217 137 195
## 218 145 137
## 219 128 142
## 220 126 130
## 221 136 155
## 222 140 161
## 223 132 169
## 224 104 190
## 225 1217 190
## 226 141 155
## 227 135 135
## 228 141 155
## 229 109 136
## 230 743 136
## 231 244 79
## 232 198 164
## 233 144 190
## 234 139 150
## 235 178 136
## 236 157 125
## 237 169 134
## 238 108 151
## 239 523 151
## 240 276 146
## 241 208 148
## 242 118 170
## 243 143 158
## 244 122 174
## 245 175 155
## 246 148 170
## 247 139 139
## 248 130 145
## 249 131 164
## 250 97 184
## 251 107 159
## 252 994 95
## 253 492 95
## 254 936 95
## 255 139 146
## 256 163 156
## 257 124 113
## 258 159 144
## 259 131 150
BUILD MODELS First, I will use the most generic model.
##
## Call:
## lm(formula = TARGET_WINS ~ ., data = mb_train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.5627 -6.6932 -0.1328 6.5249 27.8525
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 57.912438 6.642839 8.718 < 2e-16 ***
## TEAM_BATTING_H 0.015434 0.019626 0.786 0.4318
## TEAM_BATTING_2B -0.070472 0.009369 -7.522 9.36e-14 ***
## TEAM_BATTING_3B 0.161551 0.022192 7.280 5.43e-13 ***
## TEAM_BATTING_HR 0.073952 0.085392 0.866 0.3866
## TEAM_BATTING_BB 0.043765 0.046454 0.942 0.3463
## TEAM_BATTING_SO 0.018250 0.023463 0.778 0.4368
## TEAM_BASERUN_SB 0.035880 0.008687 4.130 3.83e-05 ***
## TEAM_BASERUN_CS 0.052124 0.018227 2.860 0.0043 **
## TEAM_PITCHING_H 0.019044 0.018381 1.036 0.3003
## TEAM_PITCHING_HR 0.022997 0.082092 0.280 0.7794
## TEAM_PITCHING_BB -0.004180 0.044692 -0.094 0.9255
## TEAM_PITCHING_SO -0.038176 0.022447 -1.701 0.0892 .
## TEAM_FIELDING_E -0.155876 0.009946 -15.672 < 2e-16 ***
## TEAM_FIELDING_DP -0.112885 0.013137 -8.593 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.556 on 1471 degrees of freedom
## (790 observations deleted due to missingness)
## Multiple R-squared: 0.4386, Adjusted R-squared: 0.4333
## F-statistic: 82.1 on 14 and 1471 DF, p-value: < 2.2e-16
For the second model, I will remove some variables to see if that effects the R^2 value.
##
## Call:
## lm(formula = TARGET_WINS ~ TEAM_BATTING_2B + TEAM_BATTING_3B +
## TEAM_BASERUN_SB + TEAM_BASERUN_CS + TEAM_PITCHING_SO + TEAM_FIELDING_E +
## TEAM_FIELDING_DP, data = mb_train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.469 -7.559 -0.167 7.678 36.342
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 113.921797 4.373328 26.049 < 2e-16 ***
## TEAM_BATTING_2B 0.027494 0.007357 3.737 0.000193 ***
## TEAM_BATTING_3B 0.188848 0.023456 8.051 1.67e-15 ***
## TEAM_BASERUN_SB 0.033353 0.009961 3.349 0.000833 ***
## TEAM_BASERUN_CS -0.011436 0.021033 -0.544 0.586725
## TEAM_PITCHING_SO -0.015827 0.001946 -8.134 8.71e-16 ***
## TEAM_FIELDING_E -0.185080 0.011344 -16.316 < 2e-16 ***
## TEAM_FIELDING_DP -0.066792 0.015129 -4.415 1.08e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.22 on 1478 degrees of freedom
## (790 observations deleted due to missingness)
## Multiple R-squared: 0.2223, Adjusted R-squared: 0.2186
## F-statistic: 60.36 on 7 and 1478 DF, p-value: < 2.2e-16
As we saw in the data exploration section, many of our variables are skewed. The Box Cox can transform variables to be more normal, so for our third model, we will use this method.
mod3 <- lm(formula = TARGET_WINS ~ ., data = mb_train_data)
model3 <- boxcox(mod3)
model3_bc <- lm(y ~ x, data = model3)
summary(model3_bc)
##
## Call:
## lm(formula = y ~ x, data = model3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -97.51 -33.02 11.99 39.18 48.28
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2358.091 4.356 -541.32 <2e-16 ***
## x 84.808 3.735 22.71 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43.56 on 98 degrees of freedom
## Multiple R-squared: 0.8403, Adjusted R-squared: 0.8387
## F-statistic: 515.6 on 1 and 98 DF, p-value: < 2.2e-16
MODEL SELECTION
We will compare all the models qq plots.
qqnorm(model1$residuals); qqline(model1$residuals)
qqnorm(model3_bc$residuals); qqline(model3_bc$residuals)
Although the residual plot is a better fit for model 1, mean squared error, R^2 value, are better for model 3. For this reason, I will choose model 3 to make predictions using the evaluation data.
pred1 <- predict.lm(mod3, newdata = mb_eval_data)
plot(pred1)
For each team’s index, we can now see their predicted wins.