MATH2349 Semester 2, 2019

Required packages

R provides extensive range of functions which is used to perform various preprocessing tasks.Below are the packages of functions that has been installed in order to carry out the given tasks: 1.readr package is used to import files in r using read_csv() function.

2.dplyr package is used for data manipulations tasks such as mutating,joining etc.

3.tidyr package is used to tidy the datasets which includes functions like separate(),unite().

4.hmisc package allows us to compute imputed values from the non-missing values.

library(readr)
library(dplyr)

Registered S3 method overwritten by 'dplyr':
  method           from
  print.rowwise_df     

Attaching package: 㤼㸱dplyr㤼㸲

The following objects are masked from 㤼㸱package:stats㤼㸲:

    filter, lag

The following objects are masked from 㤼㸱package:base㤼㸲:

    intersect, setdiff, setequal, union

library(tidyr)
library(Hmisc)

Loading required package: lattice
Loading required package: survival
Loading required package: Formula
Loading required package: ggplot2
Registered S3 methods overwritten by 'htmltools':
  method               from         
  print.html           tools:rstudio
  print.shiny.tag      tools:rstudio
  print.shiny.tag.list tools:rstudio
Registered S3 method overwritten by 'htmlwidgets':
  method           from         
  print.htmlwidget tools:rstudio
Registered S3 method overwritten by 'data.table':
  method           from
  print.data.table     

Attaching package: 㤼㸱Hmisc㤼㸲

The following objects are masked from 㤼㸱package:dplyr㤼㸲:

    src, summarize

The following objects are masked from 㤼㸱package:base㤼㸲:

    format.pval, units

library(lubridate)


Attaching package: 㤼㸱lubridate㤼㸲

The following object is masked from 㤼㸱package:base㤼㸲:

    date

library(outliers)

Executive Summary

Data preprocessing is done to get the consistent and understandable data so that statistical analysis can be performed further on it .For this purpose,we have to do five major tasks which is as follows: 1.getting data -> importing from the available source 2.understanding the structure of data 3.tidying and manipulating the data 4.scanning the data -> scanning for missing values and outliers 5.transforming the data -> scaling or standardising the data

In this assignment,the unpreprocessed data sets are taken and above steps are followed to give a preprocessed data.

Data

The World Cup Matches dataset shows all the results from the matches contested as part of the cups and World Cup Players dataset shows all the result of players participated in the worldcup.

Two data sets namely worldcupmatches and worldcupplayers are taken from kaggle source. https://www.kaggle.com/abecklas/fifa-world-cup. These datasets are imported into R using read_csv function after which subsetting is done by taking main variables from each data sets.’WorldcupMatches’ is subsetted into matches1 with 11 variables and 853 observations , MatchID - unique ID of the match Round ID -unique Id of the match Datetime - The Date on which the match was played along with a 24 hour format time Stage - The stage at which the match was played Stadium - Stadium name where the match was held City - The city name, where the match was played Home Team Name - Home team country name Away Team Name - Away team country name Home Team Goals - Total goals scored by the home team by the end of the match Away Team Goals - Total goals scored by the away team by the end of the match Attendance - Total crowd present at the satdium

‘WorlcupPlayers’ is subsetted into players1 with 6 variables and 37785 observations, MatchID - unique ID of the match Round ID -unique Id of the match Line-up - eleven players who takes first play of a game Shirt Number player name position - position of player in the team

These two subsetted dataset is merged into ‘world_cup_matches’ using inner join function which will return rows in both sets.After combining ,the dataset will have 39256 observations and 17 variables.

matches <- read_csv("WorldCupMatches.CSV")

Parsed with column specification:
cols(
  .default = col_character(),
  Year = [32mcol_double()[39m,
  `Home Team Goals` = [32mcol_double()[39m,
  `Away Team Goals` = [32mcol_double()[39m,
  Attendance = [32mcol_double()[39m,
  `Half-time Home Goals` = [32mcol_double()[39m,
  `Half-time Away Goals` = [32mcol_double()[39m,
  RoundID = [32mcol_double()[39m,
  MatchID = [32mcol_double()[39m
)
See spec(...) for full column specifications.

players <- read_csv("WorldCupPlayers.CSV")

Parsed with column specification:
cols(
  RoundID = [32mcol_double()[39m,
  MatchID = [32mcol_double()[39m,
  `Team Initials` = [31mcol_character()[39m,
  `Coach Name` = [31mcol_character()[39m,
  `Line-up` = [31mcol_character()[39m,
  `Shirt Number` = [32mcol_double()[39m,
  `Player Name` = [31mcol_character()[39m,
  Position = [31mcol_character()[39m,
  Event = [31mcol_character()[39m
)

matches1 <- matches[,c("MatchID","RoundID","Datetime","Stage","Stadium","City","Home Team Name","Away Team Name","Home Team Goals","Away Team Goals","Attendance")]
players1 <- players[,c("MatchID","RoundID","Line-up","Shirt Number","Player Name","Position")]
world_cup_matches <- inner_join(matches1,players1,by = c("MatchID","RoundID"))

Understand

Data type is determined using sapply function and structure of data type is found by str() function.Similarly,class and dimensions of dataset is found using class & dim function respectively.

The Word_cup_matches datasets contains char,numeric data types.Appropriate data type conversions is done for three variables Line-up,position and datetime which meets (2-4) tasks requirements.

First, Line-up variable is renamed into starting_11 to avoid confusion of same column and value name after factorizing.

Then starting_11 is converted from character to factor and labelled as N->line-up & S-> Substitute.

Likewise, position variable is converted into factor and labelled as Gk -> goalkeeper,C -> captain, GKC -> Goalkeeper&captain.

For converting the datatype of ‘datetime’ as date,few tidying steps are handled . Firstly ,the ‘datetime’ is separated into ‘date’ and ‘time’ variable using separate function followed by which ‘date’ variable is again separated into Date,Month and year in order to label month as 1,2,3 etc through which we can achieve format as (ie.01/07/1930).Then all these three variables are united into single variable ‘date’.

Before labelling and uniting , month variable which has two types of format June and Jun is limited to 3 char(ie Jun) with the help of for function .

This ‘for’ function will read all the months row wise which has 4 char and substr function will take first three position of month.

Finally ,the obtained ‘date’ variable is converted into date data type.

sapply(world_cup_matches,typeof)

        MatchID         RoundID        Datetime           Stage         Stadium 
       "double"        "double"     "character"     "character"     "character" 
           City  Home Team Name  Away Team Name Home Team Goals Away Team Goals 
    "character"     "character"     "character"        "double"        "double" 
     Attendance         Line-up    Shirt Number     Player Name        Position 
       "double"     "character"        "double"     "character"     "character"

str(world_cup_matches)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   39256 obs. of  15 variables:
 $ MatchID        : num  1096 1096 1096 1096 1096 ...
 $ RoundID        : num  201 201 201 201 201 201 201 201 201 201 ...
 $ Datetime       : chr  "13 Jul 1930 - 15:00" "13 Jul 1930 - 15:00" "13 Jul 1930 - 15:00" "13 Jul 1930 - 15:00" ...
 $ Stage          : chr  "Group 1" "Group 1" "Group 1" "Group 1" ...
 $ Stadium        : chr  "Pocitos" "Pocitos" "Pocitos" "Pocitos" ...
 $ City           : chr  "Montevideo" "Montevideo" "Montevideo" "Montevideo" ...
 $ Home Team Name : chr  "France" "France" "France" "France" ...
 $ Away Team Name : chr  "Mexico" "Mexico" "Mexico" "Mexico" ...
 $ Home Team Goals: num  4 4 4 4 4 4 4 4 4 4 ...
 $ Away Team Goals: num  1 1 1 1 1 1 1 1 1 1 ...
 $ Attendance     : num  4444 4444 4444 4444 4444 ...
 $ Line-up        : chr  "S" "S" "S" "S" ...
 $ Shirt Number   : num  0 0 0 0 0 0 0 0 0 0 ...
 $ Player Name    : chr  "Alex THEPOT" "Oscar BONFIGLIO" "Marcel LANGILLER" "Juan CARRENO" ...
 $ Position       : chr  "GK" "GK" NA NA ...

class(world_cup_matches)

[1] "tbl_df"     "tbl"        "data.frame"

dim(world_cup_matches)

[1] 39256    15

colnames(world_cup_matches)[colnames(world_cup_matches) == "Line-up"] <- "starting_11"

world_cup_matches$starting_11 <- world_cup_matches$starting_11 %>% factor(levels = c("N","S"),labels = c("Line-up","Substitute"),ordered = TRUE)

world_cup_matches$Position <- world_cup_matches$Position %>% factor(levels = c("GK","C","GKC"),labels = c("Goalkeeper","Captain","GoalKeeper&captain"),ordered = TRUE)

world_cup_matches <- world_cup_matches %>% separate('Datetime',into = c("date","time"),sep = "-")

world_cup_matches <- world_cup_matches %>% separate('date',into = c("Date","Month","Year"),sep = " ")

Expected 3 pieces. Additional pieces discarded in 39256 rows [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, ...].

for (i in c(1:nrow(world_cup_matches)))
  {
  if(nchar(world_cup_matches$Month[i]) == 4)
  world_cup_matches$Month[i] <- substr(world_cup_matches$Month[i],1,3)
}

world_cup_matches$Month <- world_cup_matches$Month %>% factor(levels = c("Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"),labels = c(1:12),ordered =TRUE)

world_cup_matches <- world_cup_matches %>% unite('date',Date,Month,Year,sep = "/")

world_cup_matches$date <- as.Date(world_cup_matches$date)

str(world_cup_matches)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   39256 obs. of  16 variables:
 $ MatchID        : num  1096 1096 1096 1096 1096 ...
 $ RoundID        : num  201 201 201 201 201 201 201 201 201 201 ...
 $ date           : Date, format: "0013-07-19" "0013-07-19" ...
 $ time           : chr  " 15:00" " 15:00" " 15:00" " 15:00" ...
 $ Stage          : chr  "Group 1" "Group 1" "Group 1" "Group 1" ...
 $ Stadium        : chr  "Pocitos" "Pocitos" "Pocitos" "Pocitos" ...
 $ City           : chr  "Montevideo" "Montevideo" "Montevideo" "Montevideo" ...
 $ Home Team Name : chr  "France" "France" "France" "France" ...
 $ Away Team Name : chr  "Mexico" "Mexico" "Mexico" "Mexico" ...
 $ Home Team Goals: num  4 4 4 4 4 4 4 4 4 4 ...
 $ Away Team Goals: num  1 1 1 1 1 1 1 1 1 1 ...
 $ Attendance     : num  4444 4444 4444 4444 4444 ...
 $ starting_11    : Ord.factor w/ 2 levels "Line-up"<"Substitute": 2 2 2 2 2 2 2 2 2 2 ...
 $ Shirt Number   : num  0 0 0 0 0 0 0 0 0 0 ...
 $ Player Name    : chr  "Alex THEPOT" "Oscar BONFIGLIO" "Marcel LANGILLER" "Juan CARRENO" ...
 $ Position       : Ord.factor w/ 3 levels "Goalkeeper"<"Captain"<..: 1 1 NA NA NA 2 NA NA NA NA ...

head(world_cup_matches)

NA
NA
NA
NA

Tidy & Manipulate Data I

The tidy dataset should satisfy three rules which are : 1.Each variable must have its own column. 2.Each observation must have its own row. 3.Each value have its own cell.

(The world_cup_matches dataset which has ‘datetime’ variable in untidy format is tidied in the above task.)

Therefore,the dataset is in tidy format as it satisfies the above mentioned rules.

Tidy & Manipulate Data II

‘winner’ variable which is created with the help of existing variables Home Team Goals,Away Team Goals, Home Team Name and Away Team Name will display the team name of who has got highest goal.

The below code will compare the goals taken by the Home team & Away team and will print the name of the team who has got the highest score in the ‘winner’ variable.

This logic is done using for and if else function.

Then ‘winner’ Column variable is added to the dataset by Cbind function.

Winner <- vector(mode = "character",length = nrow(world_cup_matches))

for (row in c(1:nrow(world_cup_matches))) {
  if(world_cup_matches$`Home Team Goals`[row] > world_cup_matches$`Away Team Goals`[row])
  Winner = world_cup_matches$`Home Team Name`
  else
    Winner = world_cup_matches$`Away Team Name`
}

world_cup_matches <- cbind(world_cup_matches,Winner)

Scan I

World_cup_mathes is scanned for missing values ,inconsistencies and obvious errors.

Colsums function is used to find missing values in all variables .

sum (is.nan()) is used to find nan values and sum(is.infinite()) function is used to find infinite values in all the variables.

Position and Attendance variables has missing values in the datasets ,Since attendance variable is numeric we have imputed it with mean .Likewise mode imputation is done for position variable as it is char.

colSums(is.na(world_cup_matches))

        MatchID         RoundID            date            time           Stage 
              0               0               0               0               0 
        Stadium            City  Home Team Name  Away Team Name Home Team Goals 
              0               0               0               0               0 
Away Team Goals      Attendance     starting_11    Shirt Number     Player Name 
              0               0               0               0               0 
       Position          Winner 
              0               0

for (col in ncol(world_cup_matches)) {
  print(sum(is.nan(world_cup_matches[,col])))
  print(sum(is.infinite(world_cup_matches[,col])))
}

[1] 0
[1] 0

world_cup_matches$Position <- impute(world_cup_matches$Position,fun = mode)

world_cup_matches$Attendance <- impute(world_cup_matches$Attendance,fun = mean)

Scan II

The dataset is being scanned for outliers . using boxplot function ,the outliers for the numeric variables Home Team Goals and Away Team Goalsare shown.

There are very few outliers in the both Home Team Goals and Away Team Goals.To handle this,capping method is used . In capping,for outliers that lie outside the outlier fences on a box-plot hence, observations outside the lower limit are replaced with the 5th percentile and those observations that lie above the upper limit are replaced with 95th percentile.

 
boxplot(world_cup_matches$`Home Team Goals`,world_cup_matches$`Away Team Goals`)


cap <- function(x){
  quantiles <- quantile( x, c(.05, 0.25, 0.75, .95 ) )
  x[ x < quantiles[2] - 1.5*IQR(x) ] <- quantiles[1]
  x[ x > quantiles[3] + 1.5*IQR(x) ] <- quantiles[4] 
  x 
}

world_cup_matches$`Home Team Goals` <- world_cup_matches$`Home Team Goals` %>% cap()

world_cup_matches$`Away Team Goals` <- world_cup_matches$`Away Team Goals` %>% cap()

boxplot(world_cup_matches$`Home Team Goals`,world_cup_matches$`Away Team Goals`)

NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA

Transform

Transformation is done for variable ‘Attendance’ in the dataset.

Histogram of that variable is found using hist() function,through which we can see that it is right skewed.

To transform the right skewed distribution to normal distribution,sqrt tranformation and log tranformation is applied.

By comparing the both histogram of transformed variable,its seen that sqrt transformation has normalized the data properly.

(i.e) sqrt function has reduced the right skewness.

Summary staistics is also performed for this variable.

hist(world_cup_matches$Attendance)


sqrt_Attendance <- sqrt(world_cup_matches$Attendance)

log_Attendance <- log(world_cup_matches$Attendance)

hist(sqrt_Attendance)


hist(log_Attendance)


summary(sqrt_Attendance)


 184 values imputed to 214.4594 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  44.72  174.93  207.36  207.08  249.20  416.95

LS0tDQp0aXRsZTogIk1BVEgyMzQ5IFNlbWVzdGVyIDIsIDIwMTkiDQphdXRob3I6ICJBbm5hbGlzaGlhIEdlb3JnZSBDaGV0dGlhciAoUzM3OTQ4NzApIGFuZCBUYW1pbCBNdWhpbCBLYXJ1cHBpYWggKFMzNzc1MTUyKSINCnN1YnRpdGxlOiBBc3NpZ25tZW50IDMNCm91dHB1dDoNCiAgaHRtbF9ub3RlYm9vazogZGVmYXVsdA0KLS0tDQoNCg0KDQoNCg0KIyMgUmVxdWlyZWQgcGFja2FnZXMgDQpSIHByb3ZpZGVzIGV4dGVuc2l2ZSByYW5nZSBvZiBmdW5jdGlvbnMgd2hpY2ggaXMgdXNlZCB0byBwZXJmb3JtIHZhcmlvdXMgcHJlcHJvY2Vzc2luZyB0YXNrcy5CZWxvdyBhcmUgdGhlIHBhY2thZ2VzIG9mIGZ1bmN0aW9ucyB0aGF0IGhhcyBiZWVuIGluc3RhbGxlZCBpbiBvcmRlciB0byBjYXJyeSBvdXQgdGhlIGdpdmVuIHRhc2tzOg0KMS5yZWFkciBwYWNrYWdlIGlzIHVzZWQgdG8gaW1wb3J0IGZpbGVzIGluIHIgdXNpbmcgcmVhZF9jc3YoKSBmdW5jdGlvbi4NCg0KMi5kcGx5ciBwYWNrYWdlIGlzIHVzZWQgZm9yIGRhdGEgbWFuaXB1bGF0aW9ucyB0YXNrcyBzdWNoIGFzIG11dGF0aW5nLGpvaW5pbmcgZXRjLg0KDQozLnRpZHlyIHBhY2thZ2UgaXMgdXNlZCB0byB0aWR5IHRoZSBkYXRhc2V0cyB3aGljaCBpbmNsdWRlcyBmdW5jdGlvbnMgbGlrZSBzZXBhcmF0ZSgpLHVuaXRlKCkuDQoNCjQuaG1pc2MgcGFja2FnZSBhbGxvd3MgdXMgdG8gY29tcHV0ZSBpbXB1dGVkIHZhbHVlcyBmcm9tICB0aGUgbm9uLW1pc3NpbmcgdmFsdWVzLg0KDQoNCg0KDQoNCg0KDQpgYGB7cn0NCmxpYnJhcnkocmVhZHIpDQpsaWJyYXJ5KGRwbHlyKQ0KbGlicmFyeSh0aWR5cikNCmxpYnJhcnkoSG1pc2MpDQpsaWJyYXJ5KG91dGxpZXJzKQ0KbGlicmFyeShrbml0cikNCg0KYGBgDQoNCg0KIyMgRXhlY3V0aXZlIFN1bW1hcnkgDQoNCkRhdGEgcHJlcHJvY2Vzc2luZyBpcyBkb25lIHRvIGdldCB0aGUgY29uc2lzdGVudCBhbmQgdW5kZXJzdGFuZGFibGUgZGF0YSBzbyB0aGF0IHN0YXRpc3RpY2FsIGFuYWx5c2lzIGNhbiBiZSBwZXJmb3JtZWQgZnVydGhlciBvbiBpdCAuRm9yIHRoaXMgcHVycG9zZSx3ZSBoYXZlIHRvIGRvIGZpdmUgbWFqb3IgdGFza3Mgd2hpY2ggaXMgYXMgZm9sbG93czoNCjEuZ2V0dGluZyBkYXRhIC0+IGltcG9ydGluZyBmcm9tIHRoZSBhdmFpbGFibGUgc291cmNlDQoyLnVuZGVyc3RhbmRpbmcgdGhlIHN0cnVjdHVyZSBvZiBkYXRhIA0KMy50aWR5aW5nIGFuZCBtYW5pcHVsYXRpbmcgdGhlIGRhdGENCjQuc2Nhbm5pbmcgdGhlIGRhdGEgLT4gc2Nhbm5pbmcgZm9yIG1pc3NpbmcgdmFsdWVzIGFuZCBvdXRsaWVycw0KNS50cmFuc2Zvcm1pbmcgdGhlIGRhdGEgLT4gc2NhbGluZyBvciBzdGFuZGFyZGlzaW5nIHRoZSBkYXRhDQoNCkluIHRoaXMgYXNzaWdubWVudCx0aGUgdW5wcmVwcm9jZXNzZWQgZGF0YSBzZXRzIGFyZSB0YWtlbiBhbmQgYWJvdmUgc3RlcHMgYXJlIGZvbGxvd2VkIHRvIGdpdmUgYSBwcmVwcm9jZXNzZWQgZGF0YS4gIA0KDQoNCg0KIyMgRGF0YQ0KDQpUaGUgV29ybGQgQ3VwIE1hdGNoZXMgZGF0YXNldCBzaG93cyBhbGwgdGhlIHJlc3VsdHMgZnJvbSB0aGUgbWF0Y2hlcyBjb250ZXN0ZWQgYXMgcGFydCBvZiB0aGUgY3VwcyBhbmQgV29ybGQgQ3VwIFBsYXllcnMgZGF0YXNldCBzaG93cyBhbGwgdGhlIHJlc3VsdCBvZiAgcGxheWVycyBwYXJ0aWNpcGF0ZWQgaW4gdGhlIHdvcmxkY3VwLg0KDQoNClR3byBkYXRhIHNldHMgbmFtZWx5IHdvcmxkY3VwbWF0Y2hlcyBhbmQgd29ybGRjdXBwbGF5ZXJzIGFyZSB0YWtlbiBmcm9tIGthZ2dsZSBzb3VyY2UuDQpodHRwczovL3d3dy5rYWdnbGUuY29tL2FiZWNrbGFzL2ZpZmEtd29ybGQtY3VwLiBUaGVzZSBkYXRhc2V0cyBhcmUgaW1wb3J0ZWQgaW50byBSIHVzaW5nIHJlYWRfY3N2IGZ1bmN0aW9uIGFmdGVyIHdoaWNoIHN1YnNldHRpbmcgaXMgZG9uZSBieSB0YWtpbmcgbWFpbiB2YXJpYWJsZXMgZnJvbSBlYWNoIGRhdGEgc2V0cy4nV29ybGRjdXBNYXRjaGVzJyBpcyBzdWJzZXR0ZWQgaW50byBtYXRjaGVzMSB3aXRoIDExIHZhcmlhYmxlcyBhbmQgODUzIG9ic2VydmF0aW9ucyAsDQpNYXRjaElEIC0gdW5pcXVlIElEIG9mIHRoZSBtYXRjaA0KUm91bmQgSUQgLXVuaXF1ZSBJZCBvZiB0aGUgbWF0Y2gNCkRhdGV0aW1lIC0gVGhlIERhdGUgb24gd2hpY2ggdGhlIG1hdGNoIHdhcyBwbGF5ZWQgYWxvbmcgd2l0aCBhIDI0IGhvdXIgZm9ybWF0IHRpbWUNClN0YWdlIC0gVGhlIHN0YWdlIGF0IHdoaWNoIHRoZSBtYXRjaCB3YXMgcGxheWVkDQpTdGFkaXVtIC0gU3RhZGl1bSBuYW1lIHdoZXJlIHRoZSBtYXRjaCB3YXMgaGVsZA0KQ2l0eSAtIFRoZSBjaXR5IG5hbWUsIHdoZXJlIHRoZSBtYXRjaCB3YXMgcGxheWVkDQpIb21lIFRlYW0gTmFtZSAtIEhvbWUgdGVhbSBjb3VudHJ5IG5hbWUNCkF3YXkgVGVhbSBOYW1lIC0gQXdheSB0ZWFtIGNvdW50cnkgbmFtZSANCkhvbWUgVGVhbSBHb2FscyAtIFRvdGFsIGdvYWxzIHNjb3JlZCBieSB0aGUgaG9tZSB0ZWFtIGJ5IHRoZSBlbmQgb2YgdGhlIG1hdGNoDQpBd2F5IFRlYW0gR29hbHMgLSBUb3RhbCBnb2FscyBzY29yZWQgYnkgdGhlIGF3YXkgdGVhbSBieSB0aGUgZW5kIG9mIHRoZSBtYXRjaA0KQXR0ZW5kYW5jZSAtIFRvdGFsIGNyb3dkIHByZXNlbnQgYXQgdGhlIHNhdGRpdW0NCg0KJ1dvcmxjdXBQbGF5ZXJzJyBpcyBzdWJzZXR0ZWQgaW50byBwbGF5ZXJzMSB3aXRoIDYgdmFyaWFibGVzIGFuZCAzNzc4NSBvYnNlcnZhdGlvbnMsDQpNYXRjaElEIC0gdW5pcXVlIElEIG9mIHRoZSBtYXRjaA0KUm91bmQgSUQgLXVuaXF1ZSBJZCBvZiB0aGUgbWF0Y2gNCkxpbmUtdXAgLSBlbGV2ZW4gcGxheWVycyB3aG8gdGFrZXMgZmlyc3QgcGxheSBvZiBhIGdhbWUNClNoaXJ0IE51bWJlciANCnBsYXllciBuYW1lIA0KcG9zaXRpb24gLSBwb3NpdGlvbiBvZiBwbGF5ZXIgaW4gdGhlIHRlYW0NCg0KVGhlc2UgdHdvIHN1YnNldHRlZCBkYXRhc2V0IGlzIG1lcmdlZCBpbnRvICd3b3JsZF9jdXBfbWF0Y2hlcycgdXNpbmcgaW5uZXIgam9pbiBmdW5jdGlvbiB3aGljaCB3aWxsIHJldHVybiByb3dzIGluIGJvdGggc2V0cy5BZnRlciBjb21iaW5pbmcgLHRoZSBkYXRhc2V0IHdpbGwgaGF2ZSAzOTI1NiBvYnNlcnZhdGlvbnMgYW5kIDE3IHZhcmlhYmxlcy4NCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KYGBge3J9DQptYXRjaGVzIDwtIHJlYWRfY3N2KCJXb3JsZEN1cE1hdGNoZXMuQ1NWIikNCnBsYXllcnMgPC0gcmVhZF9jc3YoIldvcmxkQ3VwUGxheWVycy5DU1YiKQ0KbWF0Y2hlczEgPC0gbWF0Y2hlc1ssYygiTWF0Y2hJRCIsIlJvdW5kSUQiLCJEYXRldGltZSIsIlN0YWdlIiwiU3RhZGl1bSIsIkNpdHkiLCJIb21lIFRlYW0gTmFtZSIsIkF3YXkgVGVhbSBOYW1lIiwiSG9tZSBUZWFtIEdvYWxzIiwiQXdheSBUZWFtIEdvYWxzIiwiQXR0ZW5kYW5jZSIpXQ0KcGxheWVyczEgPC0gcGxheWVyc1ssYygiTWF0Y2hJRCIsIlJvdW5kSUQiLCJMaW5lLXVwIiwiU2hpcnQgTnVtYmVyIiwiUGxheWVyIE5hbWUiLCJQb3NpdGlvbiIpXQ0Kd29ybGRfY3VwX21hdGNoZXMgPC0gaW5uZXJfam9pbihtYXRjaGVzMSxwbGF5ZXJzMSxieSA9IGMoIk1hdGNoSUQiLCJSb3VuZElEIikpDQoNCmBgYA0KDQojIyBVbmRlcnN0YW5kIA0KDQpEYXRhIHR5cGUgaXMgZGV0ZXJtaW5lZCB1c2luZyBzYXBwbHkgZnVuY3Rpb24gYW5kIHN0cnVjdHVyZSBvZiBkYXRhIHR5cGUgaXMgZm91bmQgYnkgc3RyKCkgZnVuY3Rpb24uU2ltaWxhcmx5LGNsYXNzIGFuZCBkaW1lbnNpb25zIG9mIGRhdGFzZXQgaXMgZm91bmQgdXNpbmcgY2xhc3MgJiBkaW0gZnVuY3Rpb24gcmVzcGVjdGl2ZWx5Lg0KDQpUaGUgV29yZF9jdXBfbWF0Y2hlcyBkYXRhc2V0cyBjb250YWlucyBjaGFyLG51bWVyaWMgZGF0YSB0eXBlcy5BcHByb3ByaWF0ZSBkYXRhIHR5cGUgY29udmVyc2lvbnMgaXMgZG9uZSBmb3IgdGhyZWUgdmFyaWFibGVzIExpbmUtdXAscG9zaXRpb24gYW5kIGRhdGV0aW1lIHdoaWNoIG1lZXRzICgyLTQpIHRhc2tzIHJlcXVpcmVtZW50cy4NCg0KRmlyc3QsIExpbmUtdXAgdmFyaWFibGUgaXMgcmVuYW1lZCBpbnRvIHN0YXJ0aW5nXzExIHRvIGF2b2lkIGNvbmZ1c2lvbiBvZiBzYW1lIGNvbHVtbiBhbmQgdmFsdWUgbmFtZSBhZnRlciBmYWN0b3JpemluZy4NCg0KVGhlbiBzdGFydGluZ18xMSBpcyBjb252ZXJ0ZWQgZnJvbSBjaGFyYWN0ZXIgdG8gZmFjdG9yIGFuZCBsYWJlbGxlZCBhcyBOLT5saW5lLXVwICYgUy0+IFN1YnN0aXR1dGUuDQoNCkxpa2V3aXNlLCBwb3NpdGlvbiB2YXJpYWJsZSBpcyBjb252ZXJ0ZWQgaW50byBmYWN0b3IgYW5kIGxhYmVsbGVkIGFzIEdrIC0+IGdvYWxrZWVwZXIsQyAtPiBjYXB0YWluLCBHS0MgLT4gR29hbGtlZXBlciZjYXB0YWluLg0KDQpGb3IgY29udmVydGluZyB0aGUgZGF0YXR5cGUgb2YgJ2RhdGV0aW1lJyBhcyBkYXRlLGZldyB0aWR5aW5nIHN0ZXBzIGFyZSBoYW5kbGVkIC4NCkZpcnN0bHkgLHRoZSAnZGF0ZXRpbWUnIGlzIHNlcGFyYXRlZCBpbnRvICdkYXRlJyBhbmQgJ3RpbWUnIHZhcmlhYmxlIHVzaW5nIHNlcGFyYXRlIGZ1bmN0aW9uIGZvbGxvd2VkIGJ5IHdoaWNoICdkYXRlJyB2YXJpYWJsZSBpcyBhZ2FpbiBzZXBhcmF0ZWQgaW50byBEYXRlLE1vbnRoIGFuZCB5ZWFyIGluIG9yZGVyIHRvICBsYWJlbCBtb250aCBhcyAxLDIsMyBldGMgdGhyb3VnaCB3aGljaCB3ZSBjYW4gYWNoaWV2ZSBmb3JtYXQgYXMgKGllLjAxLzA3LzE5MzApLlRoZW4gYWxsIHRoZXNlIHRocmVlIHZhcmlhYmxlcyBhcmUgdW5pdGVkIGludG8gc2luZ2xlIHZhcmlhYmxlICdkYXRlJy4NCg0KQmVmb3JlIGxhYmVsbGluZyBhbmQgdW5pdGluZyAsIG1vbnRoIHZhcmlhYmxlIHdoaWNoIGhhcyB0d28gdHlwZXMgb2YgZm9ybWF0IEp1bmUgYW5kIEp1biBpcyBsaW1pdGVkIHRvIDMgY2hhcihpZSBKdW4pIHdpdGggdGhlIGhlbHAgb2YgZm9yIGZ1bmN0aW9uIC4NCg0KVGhpcyAnZm9yJyBmdW5jdGlvbiB3aWxsIHJlYWQgYWxsIHRoZSBtb250aHMgcm93IHdpc2Ugd2hpY2ggaGFzIDQgY2hhciBhbmQgc3Vic3RyIGZ1bmN0aW9uIHdpbGwgdGFrZSBmaXJzdCB0aHJlZSBwb3NpdGlvbiBvZiBtb250aC4NCg0KRmluYWxseSAsdGhlIG9idGFpbmVkICdkYXRlJyB2YXJpYWJsZSAgaXMgY29udmVydGVkIGludG8gZGF0ZSBkYXRhIHR5cGUuDQoNCg0KDQoNCmBgYHtyfQ0Kc2FwcGx5KHdvcmxkX2N1cF9tYXRjaGVzLHR5cGVvZikNCnN0cih3b3JsZF9jdXBfbWF0Y2hlcykNCmNsYXNzKHdvcmxkX2N1cF9tYXRjaGVzKQ0KZGltKHdvcmxkX2N1cF9tYXRjaGVzKQ0KDQpjb2xuYW1lcyh3b3JsZF9jdXBfbWF0Y2hlcylbY29sbmFtZXMod29ybGRfY3VwX21hdGNoZXMpID09ICJMaW5lLXVwIl0gPC0gInN0YXJ0aW5nXzExIg0KDQp3b3JsZF9jdXBfbWF0Y2hlcyRzdGFydGluZ18xMSA8LSB3b3JsZF9jdXBfbWF0Y2hlcyRzdGFydGluZ18xMSAlPiUgZmFjdG9yKGxldmVscyA9IGMoIk4iLCJTIiksbGFiZWxzID0gYygiTGluZS11cCIsIlN1YnN0aXR1dGUiKSxvcmRlcmVkID0gVFJVRSkNCg0Kd29ybGRfY3VwX21hdGNoZXMkUG9zaXRpb24gPC0gd29ybGRfY3VwX21hdGNoZXMkUG9zaXRpb24gJT4lIGZhY3RvcihsZXZlbHMgPSBjKCJHSyIsIkMiLCJHS0MiKSxsYWJlbHMgPSBjKCJHb2Fsa2VlcGVyIiwiQ2FwdGFpbiIsIkdvYWxLZWVwZXImY2FwdGFpbiIpLG9yZGVyZWQgPSBUUlVFKQ0KDQp3b3JsZF9jdXBfbWF0Y2hlcyA8LSB3b3JsZF9jdXBfbWF0Y2hlcyAlPiUgc2VwYXJhdGUoJ0RhdGV0aW1lJyxpbnRvID0gYygiZGF0ZSIsInRpbWUiKSxzZXAgPSAiLSIpDQoNCndvcmxkX2N1cF9tYXRjaGVzIDwtIHdvcmxkX2N1cF9tYXRjaGVzICU+JSBzZXBhcmF0ZSgnZGF0ZScsaW50byA9IGMoIkRhdGUiLCJNb250aCIsIlllYXIiKSxzZXAgPSAiICIpDQoNCmZvciAoaSBpbiBjKDE6bnJvdyh3b3JsZF9jdXBfbWF0Y2hlcykpKQ0KICB7DQogIGlmKG5jaGFyKHdvcmxkX2N1cF9tYXRjaGVzJE1vbnRoW2ldKSA9PSA0KQ0KICB3b3JsZF9jdXBfbWF0Y2hlcyRNb250aFtpXSA8LSBzdWJzdHIod29ybGRfY3VwX21hdGNoZXMkTW9udGhbaV0sMSwzKQ0KfQ0KDQp3b3JsZF9jdXBfbWF0Y2hlcyRNb250aCA8LSB3b3JsZF9jdXBfbWF0Y2hlcyRNb250aCAlPiUgZmFjdG9yKGxldmVscyA9IGMoIkphbiIsIkZlYiIsIk1hciIsIkFwciIsIk1heSIsIkp1biIsIkp1bCIsIkF1ZyIsIlNlcCIsIk9jdCIsIk5vdiIsIkRlYyIpLGxhYmVscyA9IGMoMToxMiksb3JkZXJlZCA9VFJVRSkNCg0Kd29ybGRfY3VwX21hdGNoZXMgPC0gd29ybGRfY3VwX21hdGNoZXMgJT4lIHVuaXRlKCdkYXRlJyxEYXRlLE1vbnRoLFllYXIsc2VwID0gIi8iKQ0KDQp3b3JsZF9jdXBfbWF0Y2hlcyRkYXRlIDwtIGFzLkRhdGUod29ybGRfY3VwX21hdGNoZXMkZGF0ZSkNCg0Kc3RyKHdvcmxkX2N1cF9tYXRjaGVzKQ0KaGVhZCh3b3JsZF9jdXBfbWF0Y2hlcykNCg0KDQoNCg0KYGBgDQoNCg0KIyMJVGlkeSAmIE1hbmlwdWxhdGUgRGF0YSBJIA0KDQpUaGUgdGlkeSBkYXRhc2V0IHNob3VsZCBzYXRpc2Z5IHRocmVlIHJ1bGVzIHdoaWNoIGFyZSA6DQoxLkVhY2ggdmFyaWFibGUgbXVzdCBoYXZlIGl0cyBvd24gY29sdW1uLg0KMi5FYWNoIG9ic2VydmF0aW9uIG11c3QgaGF2ZSBpdHMgb3duIHJvdy4NCjMuRWFjaCB2YWx1ZSBoYXZlIGl0cyBvd24gY2VsbC4NCg0KKFRoZSB3b3JsZF9jdXBfbWF0Y2hlcyBkYXRhc2V0IHdoaWNoIGhhcyAnZGF0ZXRpbWUnIHZhcmlhYmxlIGluIHVudGlkeSBmb3JtYXQgaXMgdGlkaWVkIGluIHRoZSBhYm92ZSB0YXNrLikNCg0KVGhlcmVmb3JlLHRoZSBkYXRhc2V0IGlzIGluIHRpZHkgZm9ybWF0IGFzIGl0IHNhdGlzZmllcyB0aGUgYWJvdmUgbWVudGlvbmVkIHJ1bGVzLg0KDQoNCg0KYGBge3J9DQoNCmBgYA0KDQojIwlUaWR5ICYgTWFuaXB1bGF0ZSBEYXRhIElJIA0KDQoNCid3aW5uZXInIHZhcmlhYmxlICB3aGljaCBpcyBjcmVhdGVkIHdpdGggdGhlIGhlbHAgb2YgZXhpc3RpbmcgdmFyaWFibGVzIGBIb21lIFRlYW0gR29hbHNgLGBBd2F5IFRlYW0gR29hbHNgLCBgSG9tZSBUZWFtIE5hbWVgIGFuZCBgQXdheSBUZWFtIE5hbWVgIHdpbGwgZGlzcGxheSAgdGhlIHRlYW0gbmFtZSBvZiB3aG8gaGFzIGdvdCBoaWdoZXN0IGdvYWwuDQoNClRoZSBiZWxvdyBjb2RlIHdpbGwgY29tcGFyZSB0aGUgZ29hbHMgdGFrZW4gYnkgdGhlIEhvbWUgdGVhbSAmIEF3YXkgdGVhbSBhbmQgd2lsbCBwcmludCB0aGUgbmFtZSBvZiB0aGUgdGVhbSB3aG8gaGFzIGdvdCB0aGUgaGlnaGVzdCBzY29yZSBpbiB0aGUgJ3dpbm5lcicgdmFyaWFibGUuICAgDQoNClRoaXMgbG9naWMgaXMgZG9uZSB1c2luZyBmb3IgYW5kIGlmIGVsc2UgZnVuY3Rpb24uDQoNClRoZW4gJ3dpbm5lcicgQ29sdW1uIHZhcmlhYmxlIGlzIGFkZGVkIHRvIHRoZSBkYXRhc2V0IGJ5IENiaW5kIGZ1bmN0aW9uLg0KDQpgYGB7cn0NCldpbm5lciA8LSB2ZWN0b3IobW9kZSA9ICJjaGFyYWN0ZXIiLGxlbmd0aCA9IG5yb3cod29ybGRfY3VwX21hdGNoZXMpKQ0KDQpmb3IgKHJvdyBpbiBjKDE6bnJvdyh3b3JsZF9jdXBfbWF0Y2hlcykpKSB7DQogIGlmKHdvcmxkX2N1cF9tYXRjaGVzJGBIb21lIFRlYW0gR29hbHNgW3Jvd10gPiB3b3JsZF9jdXBfbWF0Y2hlcyRgQXdheSBUZWFtIEdvYWxzYFtyb3ddKQ0KICBXaW5uZXIgPSB3b3JsZF9jdXBfbWF0Y2hlcyRgSG9tZSBUZWFtIE5hbWVgDQogIGVsc2UNCiAgICBXaW5uZXIgPSB3b3JsZF9jdXBfbWF0Y2hlcyRgQXdheSBUZWFtIE5hbWVgDQp9DQoNCndvcmxkX2N1cF9tYXRjaGVzIDwtIGNiaW5kKHdvcmxkX2N1cF9tYXRjaGVzLFdpbm5lcikNCg0KYGBgDQoNCg0KIyMJU2NhbiBJIA0KDQpXb3JsZF9jdXBfbWF0aGVzIGlzIHNjYW5uZWQgZm9yIG1pc3NpbmcgdmFsdWVzICxpbmNvbnNpc3RlbmNpZXMgYW5kIG9idmlvdXMgZXJyb3JzLg0KDQpDb2xzdW1zIGZ1bmN0aW9uIGlzIHVzZWQgdG8gZmluZCBtaXNzaW5nIHZhbHVlcyBpbiBhbGwgdmFyaWFibGVzIC4NCg0Kc3VtIChpcy5uYW4oKSkgaXMgdXNlZCB0byBmaW5kIG5hbiB2YWx1ZXMgYW5kIHN1bShpcy5pbmZpbml0ZSgpKSBmdW5jdGlvbiBpcyB1c2VkIHRvIGZpbmQgaW5maW5pdGUgdmFsdWVzIGluIGFsbCB0aGUgdmFyaWFibGVzLg0KDQpQb3NpdGlvbiBhbmQgQXR0ZW5kYW5jZSB2YXJpYWJsZXMgaGFzIG1pc3NpbmcgdmFsdWVzIGluIHRoZSBkYXRhc2V0cyAsU2luY2UgYXR0ZW5kYW5jZSB2YXJpYWJsZSBpcyBudW1lcmljIHdlIGhhdmUgaW1wdXRlZCBpdCB3aXRoIG1lYW4gLkxpa2V3aXNlIG1vZGUgaW1wdXRhdGlvbiBpcyBkb25lIGZvciBwb3NpdGlvbiB2YXJpYWJsZSBhcyBpdCBpcyBjaGFyLg0KDQoNCg0KDQpgYGB7cn0NCmNvbFN1bXMoaXMubmEod29ybGRfY3VwX21hdGNoZXMpKQ0KDQpmb3IgKGNvbCBpbiBuY29sKHdvcmxkX2N1cF9tYXRjaGVzKSkgew0KICBwcmludChzdW0oaXMubmFuKHdvcmxkX2N1cF9tYXRjaGVzWyxjb2xdKSkpDQogIHByaW50KHN1bShpcy5pbmZpbml0ZSh3b3JsZF9jdXBfbWF0Y2hlc1ssY29sXSkpKQ0KfQ0KDQp3b3JsZF9jdXBfbWF0Y2hlcyRQb3NpdGlvbiA8LSBpbXB1dGUod29ybGRfY3VwX21hdGNoZXMkUG9zaXRpb24sZnVuID0gbW9kZSkNCg0Kd29ybGRfY3VwX21hdGNoZXMkQXR0ZW5kYW5jZSA8LSBpbXB1dGUod29ybGRfY3VwX21hdGNoZXMkQXR0ZW5kYW5jZSxmdW4gPSBtZWFuKQ0KDQoNCg0KDQoNCg0KDQoNCmBgYA0KDQoNCiMjCVNjYW4gSUkNCg0KVGhlIGRhdGFzZXQgaXMgYmVpbmcgc2Nhbm5lZCBmb3Igb3V0bGllcnMgLg0KdXNpbmcgYm94cGxvdCBmdW5jdGlvbiAsdGhlIG91dGxpZXJzIGZvciB0aGUgbnVtZXJpYyB2YXJpYWJsZXMgYEhvbWUgVGVhbSBHb2Fsc2AgYW5kIGBBd2F5IFRlYW0gR29hbHNgYXJlIHNob3duLg0KDQpUaGVyZSBhcmUgdmVyeSBmZXcgb3V0bGllcnMgaW4gdGhlIGJvdGggYEhvbWUgVGVhbSBHb2Fsc2AgYW5kIGBBd2F5IFRlYW0gR29hbHNgLlRvIGhhbmRsZSB0aGlzLGNhcHBpbmcgbWV0aG9kIGlzIHVzZWQgLiBJbiBjYXBwaW5nLGZvciBvdXRsaWVycyB0aGF0IGxpZSBvdXRzaWRlIHRoZSBvdXRsaWVyIGZlbmNlcyBvbiBhIGJveC1wbG90IGhlbmNlLCBvYnNlcnZhdGlvbnMgb3V0c2lkZSB0aGUgbG93ZXIgbGltaXQgYXJlIHJlcGxhY2VkIHdpdGggdGhlIDV0aCBwZXJjZW50aWxlIGFuZCB0aG9zZSBvYnNlcnZhdGlvbnMgdGhhdCBsaWUgYWJvdmUgdGhlIHVwcGVyIGxpbWl0IGFyZSByZXBsYWNlZCB3aXRoIDk1dGggcGVyY2VudGlsZS4NCg0KDQoNCg0KDQpgYGB7cn0NCiANCmJveHBsb3Qod29ybGRfY3VwX21hdGNoZXMkYEhvbWUgVGVhbSBHb2Fsc2Asd29ybGRfY3VwX21hdGNoZXMkYEF3YXkgVGVhbSBHb2Fsc2ApDQoNCmNhcCA8LSBmdW5jdGlvbih4KXsNCiAgcXVhbnRpbGVzIDwtIHF1YW50aWxlKCB4LCBjKC4wNSwgMC4yNSwgMC43NSwgLjk1ICkgKQ0KICB4WyB4IDwgcXVhbnRpbGVzWzJdIC0gMS41KklRUih4KSBdIDwtIHF1YW50aWxlc1sxXQ0KICB4WyB4ID4gcXVhbnRpbGVzWzNdICsgMS41KklRUih4KSBdIDwtIHF1YW50aWxlc1s0XSANCiAgeCANCn0NCg0Kd29ybGRfY3VwX21hdGNoZXMkYEhvbWUgVGVhbSBHb2Fsc2AgPC0gd29ybGRfY3VwX21hdGNoZXMkYEhvbWUgVGVhbSBHb2Fsc2AgJT4lIGNhcCgpDQoNCndvcmxkX2N1cF9tYXRjaGVzJGBBd2F5IFRlYW0gR29hbHNgIDwtIHdvcmxkX2N1cF9tYXRjaGVzJGBBd2F5IFRlYW0gR29hbHNgICU+JSBjYXAoKQ0KDQpib3hwbG90KHdvcmxkX2N1cF9tYXRjaGVzJGBIb21lIFRlYW0gR29hbHNgLHdvcmxkX2N1cF9tYXRjaGVzJGBBd2F5IFRlYW0gR29hbHNgKQ0KDQoNCiAgDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KYGBgDQoNCg0KIyMJVHJhbnNmb3JtIA0KDQpUcmFuc2Zvcm1hdGlvbiBpcyBkb25lIGZvciB2YXJpYWJsZSAnQXR0ZW5kYW5jZScgaW4gdGhlIGRhdGFzZXQuDQoNCkhpc3RvZ3JhbSBvZiB0aGF0IHZhcmlhYmxlIGlzIGZvdW5kIHVzaW5nIGhpc3QoKSBmdW5jdGlvbix0aHJvdWdoIHdoaWNoIHdlIGNhbiBzZWUgdGhhdCBpdCBpcyByaWdodCBza2V3ZWQuDQoNClRvIHRyYW5zZm9ybSB0aGUgcmlnaHQgc2tld2VkIGRpc3RyaWJ1dGlvbiB0byBub3JtYWwgZGlzdHJpYnV0aW9uLHNxcnQgdHJhbmZvcm1hdGlvbiBhbmQgbG9nIHRyYW5mb3JtYXRpb24gaXMgYXBwbGllZC4NCg0KQnkgY29tcGFyaW5nIHRoZSBib3RoIGhpc3RvZ3JhbSBvZiB0cmFuc2Zvcm1lZCB2YXJpYWJsZSxpdHMgc2VlbiB0aGF0IHNxcnQgdHJhbnNmb3JtYXRpb24gaGFzIG5vcm1hbGl6ZWQgdGhlIGRhdGEgcHJvcGVybHkuIA0KDQooaS5lKSBzcXJ0IGZ1bmN0aW9uIGhhcyByZWR1Y2VkIHRoZSByaWdodCBza2V3bmVzcy4NCg0KU3VtbWFyeSBzdGFpc3RpY3MgaXMgYWxzbyBwZXJmb3JtZWQgZm9yIHRoaXMgdmFyaWFibGUuIA0KDQoNCg0KDQpgYGB7cn0NCmhpc3Qod29ybGRfY3VwX21hdGNoZXMkQXR0ZW5kYW5jZSkNCg0Kc3FydF9BdHRlbmRhbmNlIDwtIHNxcnQod29ybGRfY3VwX21hdGNoZXMkQXR0ZW5kYW5jZSkNCg0KbG9nX0F0dGVuZGFuY2UgPC0gbG9nKHdvcmxkX2N1cF9tYXRjaGVzJEF0dGVuZGFuY2UpDQoNCmhpc3Qoc3FydF9BdHRlbmRhbmNlKQ0KDQpoaXN0KGxvZ19BdHRlbmRhbmNlKQ0KDQpzdW1tYXJ5KHNxcnRfQXR0ZW5kYW5jZSkNCg0KYGBgDQoNCg0K