Milk Yield Prediction Using Genomic Data

In this project, we will simulate genomic data and milk yield from dairy cows and build a machine learning model to predict milk yield based on genomic markers. The analysis will include feature selection, regression modeling, and visualization of prediction accuracy.

Key Steps:

Simulate genomic data (SNP markers) and milk yield.
Build linear regression and Random Forest models.
Evaluate the model’s accuracy and interpret the results.

2. Simulating Genomic Data and Milk Yield

We will simulate Single Nucleotide Polymorphism (SNP) data and create a target variable representing milk yield

# Load necessary libraries
library(tidyverse)
library(caret)  # For model building

Loading required package: lattice
Registered S3 method overwritten by 'data.table':
  method           from
  print.data.table     

Attaching package: ‘caret’

The following object is masked from ‘package:survival’:

    cluster

The following object is masked from ‘package:purrr’:

    lift

library(randomForest)  # For Random Forest models

# Set random seed for reproducibility
set.seed(123)

# Simulate genomic SNP data (100 SNPs, 500 cows)
n_cows <- 500  # Number of cows
n_snps <- 100  # Number of SNP markers

# Generate random SNP data (0, 1, 2 representing the number of minor alleles)
snp_data <- as.data.frame(matrix(sample(0:2, n_cows * n_snps, replace = TRUE), nrow = n_cows, ncol = n_snps))
colnames(snp_data) <- paste0("SNP_", 1:n_snps)

# Simulate milk yield based on a few key SNPs (introducing some SNPs with high influence on milk yield)
milk_yield <- 30 + 1.5 * snp_data$SNP_1 - 2.0 * snp_data$SNP_5 + 1.2 * snp_data$SNP_10 + rnorm(n_cows, mean = 0, sd = 2)

# Combine SNP data with milk yield
data <- cbind(snp_data, milk_yield)
head(data)

ABCDEFGHIJ0123456789

	SNP_1 <int>	SNP_2 <int>	SNP_3 <int>	SNP_4 <int>	SNP_5 <int>	SNP_6 <int>	SNP_7 <int>	SNP_8 <int>	SNP_9 <int>
1	2	1	1	2	2	1	2	2	2
2	2	1	2	2	1	1	2	0	2
3	2	2	1	0	0	2	0	0	2
4	1	1	0	1	0	2	0	2	2
5	2	2	2	2	0	0	1	2	0
6	1	2	0	0	0	0	2	0	1

NA

3. Feature Selection and Data Preparation

Before building models, we will perform feature selection to identify the most important SNPs that influence milk yield.

# Perform feature selection using caret package
set.seed(123)
control <- trainControl(method = "repeatedcv", number = 10, repeats = 3)
model <- train(milk_yield ~ ., data = data, method = "lm", trControl = control)

# Get the importance of each SNP
importance <- varImp(model)
print(importance)

lm variable importance

  only 20 most important variables shown (out of 100)

ABCDEFGHIJ0123456789

	Overall <dbl>
SNP_5	100.00000
SNP_1	77.38699
SNP_10	56.98812
SNP_99	15.30143
SNP_61	14.04266
SNP_20	13.92271
SNP_69	13.78804
SNP_74	13.77585
SNP_24	12.93515
SNP_4	12.19906

# Visualize important SNPs
plot(importance, top = 10, main = "Top 10 Important SNPs for Milk Yield Prediction")

4. Building Machine Learning Models

We will build Linear Regression and Random Forest models to predict milk yield based on the SNP data.

Linear Regression Model:

# Linear regression model
lm_model <- lm(milk_yield ~ ., data = data)
summary(lm_model)


Call:
lm(formula = milk_yield ~ ., data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7307 -1.0865 -0.0072  1.1021  4.7633 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 28.904806   1.208254  23.923  < 2e-16 ***
SNP_1        1.580666   0.118277  13.364  < 2e-16 ***
SNP_2       -0.113100   0.117284  -0.964  0.33546    
SNP_3       -0.177384   0.117204  -1.513  0.13095    
SNP_4       -0.250731   0.118293  -2.120  0.03466 *  
SNP_5       -1.963461   0.113727 -17.265  < 2e-16 ***
SNP_6       -0.085199   0.120635  -0.706  0.48044    
SNP_7       -0.112746   0.125120  -0.901  0.36808    
SNP_8        0.251053   0.122293   2.053  0.04073 *  
SNP_9        0.112428   0.116837   0.962  0.33650    
SNP_10       1.223993   0.124321   9.845  < 2e-16 ***
SNP_11      -0.075918   0.116228  -0.653  0.51401    
SNP_12       0.127867   0.116537   1.097  0.27321    
SNP_13       0.019332   0.115133   0.168  0.86674    
SNP_14      -0.070012   0.116008  -0.604  0.54651    
SNP_15      -0.088050   0.119216  -0.739  0.46060    
SNP_16       0.132314   0.115949   1.141  0.25450    
SNP_17      -0.001758   0.114733  -0.015  0.98779    
SNP_18       0.008537   0.121931   0.070  0.94422    
SNP_19       0.113803   0.116633   0.976  0.32979    
SNP_20       0.283229   0.117187   2.417  0.01610 *  
SNP_21      -0.087775   0.120415  -0.729  0.46647    
SNP_22      -0.122367   0.122277  -1.001  0.31756    
SNP_23       0.097498   0.113839   0.856  0.39226    
SNP_24       0.269754   0.120075   2.247  0.02521 *  
SNP_25       0.029439   0.119639   0.246  0.80576    
SNP_26       0.013128   0.115212   0.114  0.90934    
SNP_27      -0.005180   0.123382  -0.042  0.96653    
SNP_28       0.243947   0.118256   2.063  0.03977 *  
SNP_29      -0.125609   0.119134  -1.054  0.29236    
SNP_30      -0.237695   0.118152  -2.012  0.04492 *  
SNP_31       0.102362   0.115260   0.888  0.37502    
SNP_32       0.073090   0.119611   0.611  0.54151    
SNP_33       0.083392   0.121349   0.687  0.49235    
SNP_34       0.087353   0.118912   0.735  0.46301    
SNP_35      -0.166785   0.116241  -1.435  0.15212    
SNP_36       0.054863   0.114546   0.479  0.63223    
SNP_37       0.128753   0.120935   1.065  0.28768    
SNP_38      -0.119380   0.117109  -1.019  0.30864    
SNP_39       0.095005   0.117292   0.810  0.41843    
SNP_40       0.093207   0.122308   0.762  0.44647    
SNP_41      -0.187800   0.117325  -1.601  0.11024    
SNP_42       0.082752   0.113905   0.727  0.46796    
SNP_43       0.222577   0.121258   1.836  0.06717 .  
SNP_44      -0.068667   0.117790  -0.583  0.56025    
SNP_45      -0.050694   0.119392  -0.425  0.67135    
SNP_46      -0.088444   0.117793  -0.751  0.45319    
SNP_47       0.238045   0.122711   1.940  0.05310 .  
SNP_48      -0.196666   0.119744  -1.642  0.10130    
SNP_49      -0.034879   0.121694  -0.287  0.77456    
SNP_50      -0.147701   0.116042  -1.273  0.20382    
SNP_51      -0.054824   0.118300  -0.463  0.64331    
SNP_52      -0.159518   0.118391  -1.347  0.17862    
SNP_53      -0.037992   0.119906  -0.317  0.75153    
SNP_54       0.207060   0.116304   1.780  0.07578 .  
SNP_55       0.216290   0.117407   1.842  0.06619 .  
SNP_56       0.013221   0.114416   0.116  0.90807    
SNP_57       0.188615   0.119471   1.579  0.11518    
SNP_58      -0.246363   0.117766  -2.092  0.03707 *  
SNP_59       0.201013   0.120099   1.674  0.09497 .  
SNP_60       0.143955   0.114815   1.254  0.21065    
SNP_61       0.286249   0.117431   2.438  0.01522 *  
SNP_62       0.085058   0.118213   0.720  0.47224    
SNP_63       0.247981   0.118664   2.090  0.03727 *  
SNP_64       0.136256   0.119588   1.139  0.25523    
SNP_65      -0.148861   0.121627  -1.224  0.22171    
SNP_66       0.146374   0.115708   1.265  0.20660    
SNP_67      -0.167923   0.115903  -1.449  0.14817    
SNP_68      -0.127682   0.114659  -1.114  0.26613    
SNP_69       0.276993   0.115719   2.394  0.01714 *  
SNP_70       0.108795   0.112436   0.968  0.33382    
SNP_71      -0.031897   0.120808  -0.264  0.79189    
SNP_72       0.172916   0.117874   1.467  0.14318    
SNP_73      -0.080621   0.119910  -0.672  0.50176    
SNP_74       0.301033   0.125873   2.392  0.01724 *  
SNP_75      -0.033367   0.117666  -0.284  0.77689    
SNP_76      -0.225923   0.122888  -1.838  0.06674 .  
SNP_77      -0.140040   0.119204  -1.175  0.24078    
SNP_78       0.035662   0.119605   0.298  0.76573    
SNP_79       0.007060   0.117309   0.060  0.95204    
SNP_80       0.027632   0.115725   0.239  0.81141    
SNP_81       0.023246   0.122188   0.190  0.84921    
SNP_82      -0.082775   0.123756  -0.669  0.50398    
SNP_83      -0.164546   0.121783  -1.351  0.17742    
SNP_84       0.051815   0.120121   0.431  0.66644    
SNP_85      -0.107796   0.116589  -0.925  0.35574    
SNP_86      -0.048208   0.114926  -0.419  0.67510    
SNP_87      -0.038587   0.114953  -0.336  0.73729    
SNP_88      -0.068601   0.117390  -0.584  0.55929    
SNP_89      -0.107721   0.124072  -0.868  0.38580    
SNP_90       0.082622   0.118527   0.697  0.48616    
SNP_91      -0.064020   0.116695  -0.549  0.58358    
SNP_92      -0.119136   0.117202  -1.017  0.31001    
SNP_93      -0.007217   0.117809  -0.061  0.95118    
SNP_94       0.028621   0.117727   0.243  0.80804    
SNP_95      -0.053211   0.116132  -0.458  0.64706    
SNP_96      -0.002861   0.114367  -0.025  0.98006    
SNP_97      -0.038005   0.114042  -0.333  0.73912    
SNP_98       0.237946   0.119362   1.993  0.04689 *  
SNP_99      -0.311685   0.117408  -2.655  0.00826 ** 
SNP_100      0.104263   0.123258   0.846  0.39812    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.933 on 399 degrees of freedom
Multiple R-squared:  0.6677,    Adjusted R-squared:  0.5845 
F-statistic: 8.019 on 100 and 399 DF,  p-value: < 2.2e-16

# Predict using linear regression
lm_predictions <- predict(lm_model, data)

# Evaluate model performance
lm_rmse <- sqrt(mean((lm_predictions - data$milk_yield)^2))
cat("Linear Regression RMSE:", lm_rmse)

Linear Regression RMSE: 1.727098

Random Forest Model:

# Train a Random Forest model
set.seed(123)
rf_model <- randomForest(milk_yield ~ ., data = data, ntree = 100)

# Predict using Random Forest
rf_predictions <- predict(rf_model, data)

# Evaluate Random Forest performance
rf_rmse <- sqrt(mean((rf_predictions - data$milk_yield)^2))
cat("Random Forest RMSE:", rf_rmse)

Random Forest RMSE: 0.9130019

# Visualize variable importance from Random Forest
varImpPlot(rf_model, main = "Variable Importance - Random Forest")

5. Model Evaluation and Visualization

We will compare the performance of the Linear Regression and Random Forest models using Root Mean Squared Error (RMSE) and visualize the predictions.

# Compare actual vs predicted milk yield (Random Forest)
ggplot(data, aes(x = milk_yield, y = rf_predictions)) +
  geom_point(alpha = 0.6, color = "blue") +
  geom_abline(slope = 1, intercept = 0, linetype = "dashed") +
  labs(title = "Actual vs Predicted Milk Yield (Random Forest)", x = "Actual Milk Yield", y = "Predicted Milk Yield") +
  theme_minimal()


# Visualize distribution of prediction errors
ggplot(data, aes(x = rf_predictions - milk_yield)) +
  geom_histogram(bins = 30, fill = "blue", alpha = 0.7) +
  labs(title = "Prediction Error Distribution (Random Forest)", x = "Prediction Error", y = "Count") +
  theme_minimal()

To incorporate BLUE (Best Linear Unbiased Estimator) and REML (Restricted Maximum Likelihood) into the above milk yield prediction project, we can apply linear mixed models that account for both fixed and random effects. These models are commonly used in genetics and animal breeding to model both genetic and environmental influences on traits like milk yield.

In this context, BLUE applies to the estimation of fixed effects (like treatment, nutrition, or specific SNP markers) and REML helps in estimating variance components for random effects (like cow-to-cow variability or genomic data).

Steps:

Fixed Effects: SNP markers influencing milk yield.
Random Effects: Cow-specific variability or environmental effects.
Use BLUE and REML in a Linear Mixed Model.
We will use the lme4 package to build a linear mixed model that applies REML to estimate the variance components for the random effects.

Conclusion: Milk Yield Prediction Using Genomic Data

In this project, we explored the use of genomic data (SNP markers) to predict milk yield in dairy cows using two machine learning approaches: Linear Regression and Random Forest.

Model Comparison:

Linear Regression RMSE: 1.727
Random Forest RMSE: 0.913

The Random Forest model significantly outperformed the Linear Regression model in predicting milk yield. This suggests that Random Forest was able to capture complex, non-linear interactions between the genomic markers (SNPs) and milk yield, while the Linear Regression model struggled with these complexities.

Key Insights:

Feature Importance: Several SNPs (such as SNP_1, SNP_5, and SNP_10) were identified as highly influential in predicting milk yield. This finding aligns with the notion that genetic variations play a critical role in milk production traits.
Predictive Power: The lower RMSE of 0.913 from the Random Forest model indicates a highly accurate prediction of milk yield, making it a reliable tool for selecting high-performing dairy cows based on genomic data.
Practical Application: The ability to predict milk yield using genomic data can have profound implications in precision breeding. By identifying cows with optimal genetic markers for milk production, farmers and breeders can make more informed decisions to enhance productivity and sustainability.

Scientific Conclusion:

The project demonstrates that Random Forest is a more effective model than Linear Regression for predicting milk yield based on genomic data due to its ability to handle non-linear relationships and interactions between SNPs. This approach provides a valuable framework for precision breeding, enabling farmers to optimize milk production through data-driven genetic selection.

This methodology can be applied by companies involved in livestock health and productivity enhancement, showcasing the potential of machine learning in improving dairy production outcomes.

LS0tCnRpdGxlOiAiTWlsayBZaWVsZCBQcmVkaWN0aW9uIFVzaW5nIEdlbm9taWMgRGF0YSIKb3V0cHV0OiBodG1sX25vdGVib29rCi0tLQoKSW4gdGhpcyBwcm9qZWN0LCB3ZSB3aWxsIHNpbXVsYXRlIGdlbm9taWMgZGF0YSBhbmQgbWlsayB5aWVsZCBmcm9tIGRhaXJ5IGNvd3MgYW5kIGJ1aWxkIGEgbWFjaGluZSBsZWFybmluZyBtb2RlbCB0byBwcmVkaWN0IG1pbGsgeWllbGQgYmFzZWQgb24gZ2Vub21pYyBtYXJrZXJzLiBUaGUgYW5hbHlzaXMgd2lsbCBpbmNsdWRlIGZlYXR1cmUgc2VsZWN0aW9uLCByZWdyZXNzaW9uIG1vZGVsaW5nLCBhbmQgdmlzdWFsaXphdGlvbiBvZiBwcmVkaWN0aW9uIGFjY3VyYWN5LgoKIyMjIEtleSBTdGVwczoKCjEuIFNpbXVsYXRlIGdlbm9taWMgZGF0YSAoU05QIG1hcmtlcnMpIGFuZCBtaWxrIHlpZWxkLgoyLiBCdWlsZCBsaW5lYXIgcmVncmVzc2lvbiBhbmQgUmFuZG9tIEZvcmVzdCBtb2RlbHMuCjMuIEV2YWx1YXRlIHRoZSBtb2RlbCdzIGFjY3VyYWN5IGFuZCBpbnRlcnByZXQgdGhlIHJlc3VsdHMuCgojIyAyLiBTaW11bGF0aW5nIEdlbm9taWMgRGF0YSBhbmQgTWlsayBZaWVsZApXZSB3aWxsIHNpbXVsYXRlIFNpbmdsZSBOdWNsZW90aWRlIFBvbHltb3JwaGlzbSAoU05QKSBkYXRhIGFuZCBjcmVhdGUgYSB0YXJnZXQgdmFyaWFibGUgcmVwcmVzZW50aW5nIG1pbGsgeWllbGQKIAoKYGBge3J9CiMgTG9hZCBuZWNlc3NhcnkgbGlicmFyaWVzCmxpYnJhcnkodGlkeXZlcnNlKQpsaWJyYXJ5KGNhcmV0KSAgIyBGb3IgbW9kZWwgYnVpbGRpbmcKbGlicmFyeShyYW5kb21Gb3Jlc3QpICAjIEZvciBSYW5kb20gRm9yZXN0IG1vZGVscwoKIyBTZXQgcmFuZG9tIHNlZWQgZm9yIHJlcHJvZHVjaWJpbGl0eQpzZXQuc2VlZCgxMjMpCgojIFNpbXVsYXRlIGdlbm9taWMgU05QIGRhdGEgKDEwMCBTTlBzLCA1MDAgY293cykKbl9jb3dzIDwtIDUwMCAgIyBOdW1iZXIgb2YgY293cwpuX3NucHMgPC0gMTAwICAjIE51bWJlciBvZiBTTlAgbWFya2VycwoKIyBHZW5lcmF0ZSByYW5kb20gU05QIGRhdGEgKDAsIDEsIDIgcmVwcmVzZW50aW5nIHRoZSBudW1iZXIgb2YgbWlub3IgYWxsZWxlcykKc25wX2RhdGEgPC0gYXMuZGF0YS5mcmFtZShtYXRyaXgoc2FtcGxlKDA6Miwgbl9jb3dzICogbl9zbnBzLCByZXBsYWNlID0gVFJVRSksIG5yb3cgPSBuX2Nvd3MsIG5jb2wgPSBuX3NucHMpKQpjb2xuYW1lcyhzbnBfZGF0YSkgPC0gcGFzdGUwKCJTTlBfIiwgMTpuX3NucHMpCgojIFNpbXVsYXRlIG1pbGsgeWllbGQgYmFzZWQgb24gYSBmZXcga2V5IFNOUHMgKGludHJvZHVjaW5nIHNvbWUgU05QcyB3aXRoIGhpZ2ggaW5mbHVlbmNlIG9uIG1pbGsgeWllbGQpCm1pbGtfeWllbGQgPC0gMzAgKyAxLjUgKiBzbnBfZGF0YSRTTlBfMSAtIDIuMCAqIHNucF9kYXRhJFNOUF81ICsgMS4yICogc25wX2RhdGEkU05QXzEwICsgcm5vcm0obl9jb3dzLCBtZWFuID0gMCwgc2QgPSAyKQoKIyBDb21iaW5lIFNOUCBkYXRhIHdpdGggbWlsayB5aWVsZApkYXRhIDwtIGNiaW5kKHNucF9kYXRhLCBtaWxrX3lpZWxkKQpoZWFkKGRhdGEpCgpgYGAKCiMjIDMuIEZlYXR1cmUgU2VsZWN0aW9uIGFuZCBEYXRhIFByZXBhcmF0aW9uCkJlZm9yZSBidWlsZGluZyBtb2RlbHMsIHdlIHdpbGwgcGVyZm9ybSBmZWF0dXJlIHNlbGVjdGlvbiB0byBpZGVudGlmeSB0aGUgbW9zdCBpbXBvcnRhbnQgU05QcyB0aGF0IGluZmx1ZW5jZSBtaWxrIHlpZWxkLgoKYGBge3J9CiMgUGVyZm9ybSBmZWF0dXJlIHNlbGVjdGlvbiB1c2luZyBjYXJldCBwYWNrYWdlCnNldC5zZWVkKDEyMykKY29udHJvbCA8LSB0cmFpbkNvbnRyb2wobWV0aG9kID0gInJlcGVhdGVkY3YiLCBudW1iZXIgPSAxMCwgcmVwZWF0cyA9IDMpCm1vZGVsIDwtIHRyYWluKG1pbGtfeWllbGQgfiAuLCBkYXRhID0gZGF0YSwgbWV0aG9kID0gImxtIiwgdHJDb250cm9sID0gY29udHJvbCkKCiMgR2V0IHRoZSBpbXBvcnRhbmNlIG9mIGVhY2ggU05QCmltcG9ydGFuY2UgPC0gdmFySW1wKG1vZGVsKQpwcmludChpbXBvcnRhbmNlKQoKIyBWaXN1YWxpemUgaW1wb3J0YW50IFNOUHMKcGxvdChpbXBvcnRhbmNlLCB0b3AgPSAxMCwgbWFpbiA9ICJUb3AgMTAgSW1wb3J0YW50IFNOUHMgZm9yIE1pbGsgWWllbGQgUHJlZGljdGlvbiIpCgpgYGAKIyMgNC4gQnVpbGRpbmcgTWFjaGluZSBMZWFybmluZyBNb2RlbHMKV2Ugd2lsbCBidWlsZCBMaW5lYXIgUmVncmVzc2lvbiBhbmQgUmFuZG9tIEZvcmVzdCBtb2RlbHMgdG8gcHJlZGljdCBtaWxrIHlpZWxkIGJhc2VkIG9uIHRoZSBTTlAgZGF0YS4KCiMjIyBMaW5lYXIgUmVncmVzc2lvbiBNb2RlbDoKCmBgYHtyfQojIExpbmVhciByZWdyZXNzaW9uIG1vZGVsCmxtX21vZGVsIDwtIGxtKG1pbGtfeWllbGQgfiAuLCBkYXRhID0gZGF0YSkKc3VtbWFyeShsbV9tb2RlbCkKCiMgUHJlZGljdCB1c2luZyBsaW5lYXIgcmVncmVzc2lvbgpsbV9wcmVkaWN0aW9ucyA8LSBwcmVkaWN0KGxtX21vZGVsLCBkYXRhKQoKIyBFdmFsdWF0ZSBtb2RlbCBwZXJmb3JtYW5jZQpsbV9ybXNlIDwtIHNxcnQobWVhbigobG1fcHJlZGljdGlvbnMgLSBkYXRhJG1pbGtfeWllbGQpXjIpKQpjYXQoIkxpbmVhciBSZWdyZXNzaW9uIFJNU0U6IiwgbG1fcm1zZSkKCmBgYAoKIyMjIFJhbmRvbSBGb3Jlc3QgTW9kZWw6CgpgYGB7cn0KIyBUcmFpbiBhIFJhbmRvbSBGb3Jlc3QgbW9kZWwKc2V0LnNlZWQoMTIzKQpyZl9tb2RlbCA8LSByYW5kb21Gb3Jlc3QobWlsa195aWVsZCB+IC4sIGRhdGEgPSBkYXRhLCBudHJlZSA9IDEwMCkKCiMgUHJlZGljdCB1c2luZyBSYW5kb20gRm9yZXN0CnJmX3ByZWRpY3Rpb25zIDwtIHByZWRpY3QocmZfbW9kZWwsIGRhdGEpCgojIEV2YWx1YXRlIFJhbmRvbSBGb3Jlc3QgcGVyZm9ybWFuY2UKcmZfcm1zZSA8LSBzcXJ0KG1lYW4oKHJmX3ByZWRpY3Rpb25zIC0gZGF0YSRtaWxrX3lpZWxkKV4yKSkKY2F0KCJSYW5kb20gRm9yZXN0IFJNU0U6IiwgcmZfcm1zZSkKCiMgVmlzdWFsaXplIHZhcmlhYmxlIGltcG9ydGFuY2UgZnJvbSBSYW5kb20gRm9yZXN0CnZhckltcFBsb3QocmZfbW9kZWwsIG1haW4gPSAiVmFyaWFibGUgSW1wb3J0YW5jZSAtIFJhbmRvbSBGb3Jlc3QiKQoKYGBgCgojIyA1LiBNb2RlbCBFdmFsdWF0aW9uIGFuZCBWaXN1YWxpemF0aW9uCldlIHdpbGwgY29tcGFyZSB0aGUgcGVyZm9ybWFuY2Ugb2YgdGhlIExpbmVhciBSZWdyZXNzaW9uIGFuZCBSYW5kb20gRm9yZXN0IG1vZGVscyB1c2luZyBSb290IE1lYW4gU3F1YXJlZCBFcnJvciAoUk1TRSkgYW5kIHZpc3VhbGl6ZSB0aGUgcHJlZGljdGlvbnMuCmBgYHtyfQojIENvbXBhcmUgYWN0dWFsIHZzIHByZWRpY3RlZCBtaWxrIHlpZWxkIChSYW5kb20gRm9yZXN0KQpnZ3Bsb3QoZGF0YSwgYWVzKHggPSBtaWxrX3lpZWxkLCB5ID0gcmZfcHJlZGljdGlvbnMpKSArCiAgZ2VvbV9wb2ludChhbHBoYSA9IDAuNiwgY29sb3IgPSAiYmx1ZSIpICsKICBnZW9tX2FibGluZShzbG9wZSA9IDEsIGludGVyY2VwdCA9IDAsIGxpbmV0eXBlID0gImRhc2hlZCIpICsKICBsYWJzKHRpdGxlID0gIkFjdHVhbCB2cyBQcmVkaWN0ZWQgTWlsayBZaWVsZCAoUmFuZG9tIEZvcmVzdCkiLCB4ID0gIkFjdHVhbCBNaWxrIFlpZWxkIiwgeSA9ICJQcmVkaWN0ZWQgTWlsayBZaWVsZCIpICsKICB0aGVtZV9taW5pbWFsKCkKCiMgVmlzdWFsaXplIGRpc3RyaWJ1dGlvbiBvZiBwcmVkaWN0aW9uIGVycm9ycwpnZ3Bsb3QoZGF0YSwgYWVzKHggPSByZl9wcmVkaWN0aW9ucyAtIG1pbGtfeWllbGQpKSArCiAgZ2VvbV9oaXN0b2dyYW0oYmlucyA9IDMwLCBmaWxsID0gImJsdWUiLCBhbHBoYSA9IDAuNykgKwogIGxhYnModGl0bGUgPSAiUHJlZGljdGlvbiBFcnJvciBEaXN0cmlidXRpb24gKFJhbmRvbSBGb3Jlc3QpIiwgeCA9ICJQcmVkaWN0aW9uIEVycm9yIiwgeSA9ICJDb3VudCIpICsKICB0aGVtZV9taW5pbWFsKCkKCmBgYAoKVG8gaW5jb3Jwb3JhdGUgQkxVRSAoQmVzdCBMaW5lYXIgVW5iaWFzZWQgRXN0aW1hdG9yKSBhbmQgUkVNTCAoUmVzdHJpY3RlZCBNYXhpbXVtIExpa2VsaWhvb2QpIGludG8gdGhlIGFib3ZlIG1pbGsgeWllbGQgcHJlZGljdGlvbiBwcm9qZWN0LCB3ZSBjYW4gYXBwbHkgbGluZWFyIG1peGVkIG1vZGVscyB0aGF0IGFjY291bnQgZm9yIGJvdGggZml4ZWQgYW5kIHJhbmRvbSBlZmZlY3RzLiBUaGVzZSBtb2RlbHMgYXJlIGNvbW1vbmx5IHVzZWQgaW4gZ2VuZXRpY3MgYW5kIGFuaW1hbCBicmVlZGluZyB0byBtb2RlbCBib3RoIGdlbmV0aWMgYW5kIGVudmlyb25tZW50YWwgaW5mbHVlbmNlcyBvbiB0cmFpdHMgbGlrZSBtaWxrIHlpZWxkLgoKSW4gdGhpcyBjb250ZXh0LCBCTFVFIGFwcGxpZXMgdG8gdGhlIGVzdGltYXRpb24gb2YgZml4ZWQgZWZmZWN0cyAobGlrZSB0cmVhdG1lbnQsIG51dHJpdGlvbiwgb3Igc3BlY2lmaWMgU05QIG1hcmtlcnMpIGFuZCBSRU1MIGhlbHBzIGluIGVzdGltYXRpbmcgdmFyaWFuY2UgY29tcG9uZW50cyBmb3IgcmFuZG9tIGVmZmVjdHMgKGxpa2UgY293LXRvLWNvdyB2YXJpYWJpbGl0eSBvciBnZW5vbWljIGRhdGEpLgoKIyMjIFN0ZXBzOgoqIEZpeGVkIEVmZmVjdHM6IFNOUCBtYXJrZXJzIGluZmx1ZW5jaW5nIG1pbGsgeWllbGQuCiogUmFuZG9tIEVmZmVjdHM6IENvdy1zcGVjaWZpYyB2YXJpYWJpbGl0eSBvciBlbnZpcm9ubWVudGFsIGVmZmVjdHMuCiogVXNlIEJMVUUgYW5kIFJFTUwgaW4gYSBMaW5lYXIgTWl4ZWQgTW9kZWwuCiogV2Ugd2lsbCB1c2UgdGhlIGxtZTQgcGFja2FnZSB0byBidWlsZCBhIGxpbmVhciBtaXhlZCBtb2RlbCB0aGF0IGFwcGxpZXMgUkVNTCB0byBlc3RpbWF0ZSB0aGUgdmFyaWFuY2UgY29tcG9uZW50cyBmb3IgdGhlIHJhbmRvbSBlZmZlY3RzLgoKIyMjICoqQ29uY2x1c2lvbjogTWlsayBZaWVsZCBQcmVkaWN0aW9uIFVzaW5nIEdlbm9taWMgRGF0YSoqCgpJbiB0aGlzIHByb2plY3QsIHdlIGV4cGxvcmVkIHRoZSB1c2Ugb2YgKipnZW5vbWljIGRhdGEqKiAoU05QIG1hcmtlcnMpIHRvIHByZWRpY3QgKiptaWxrIHlpZWxkKiogaW4gZGFpcnkgY293cyB1c2luZyB0d28gbWFjaGluZSBsZWFybmluZyBhcHByb2FjaGVzOiAqKkxpbmVhciBSZWdyZXNzaW9uKiogYW5kICoqUmFuZG9tIEZvcmVzdCoqLgoKIyMjIyAqKk1vZGVsIENvbXBhcmlzb24qKjoKLSAqKkxpbmVhciBSZWdyZXNzaW9uIFJNU0UqKjogKioxLjcyNyoqCi0gKipSYW5kb20gRm9yZXN0IFJNU0UqKjogKiowLjkxMyoqCgpUaGUgKipSYW5kb20gRm9yZXN0IG1vZGVsKiogc2lnbmlmaWNhbnRseSBvdXRwZXJmb3JtZWQgdGhlICoqTGluZWFyIFJlZ3Jlc3Npb24gbW9kZWwqKiBpbiBwcmVkaWN0aW5nIG1pbGsgeWllbGQuIFRoaXMgc3VnZ2VzdHMgdGhhdCBSYW5kb20gRm9yZXN0IHdhcyBhYmxlIHRvIGNhcHR1cmUgY29tcGxleCwgbm9uLWxpbmVhciBpbnRlcmFjdGlvbnMgYmV0d2VlbiB0aGUgZ2Vub21pYyBtYXJrZXJzIChTTlBzKSBhbmQgbWlsayB5aWVsZCwgd2hpbGUgdGhlIExpbmVhciBSZWdyZXNzaW9uIG1vZGVsIHN0cnVnZ2xlZCB3aXRoIHRoZXNlIGNvbXBsZXhpdGllcy4KCiMjIyMgKipLZXkgSW5zaWdodHMqKjoKMS4gKipGZWF0dXJlIEltcG9ydGFuY2UqKjogU2V2ZXJhbCBTTlBzIChzdWNoIGFzICoqU05QXzEqKiwgKipTTlBfNSoqLCBhbmQgKipTTlBfMTAqKikgd2VyZSBpZGVudGlmaWVkIGFzIGhpZ2hseSBpbmZsdWVudGlhbCBpbiBwcmVkaWN0aW5nIG1pbGsgeWllbGQuIFRoaXMgZmluZGluZyBhbGlnbnMgd2l0aCB0aGUgbm90aW9uIHRoYXQgZ2VuZXRpYyB2YXJpYXRpb25zIHBsYXkgYSBjcml0aWNhbCByb2xlIGluIG1pbGsgcHJvZHVjdGlvbiB0cmFpdHMuCiAgIAoyLiAqKlByZWRpY3RpdmUgUG93ZXIqKjogVGhlIGxvd2VyICoqUk1TRSBvZiAwLjkxMyoqIGZyb20gdGhlIFJhbmRvbSBGb3Jlc3QgbW9kZWwgaW5kaWNhdGVzIGEgaGlnaGx5IGFjY3VyYXRlIHByZWRpY3Rpb24gb2YgbWlsayB5aWVsZCwgbWFraW5nIGl0IGEgcmVsaWFibGUgdG9vbCBmb3Igc2VsZWN0aW5nIGhpZ2gtcGVyZm9ybWluZyBkYWlyeSBjb3dzIGJhc2VkIG9uIGdlbm9taWMgZGF0YS4KCjMuICoqUHJhY3RpY2FsIEFwcGxpY2F0aW9uKio6IFRoZSBhYmlsaXR5IHRvIHByZWRpY3QgbWlsayB5aWVsZCB1c2luZyBnZW5vbWljIGRhdGEgY2FuIGhhdmUgcHJvZm91bmQgaW1wbGljYXRpb25zIGluICoqcHJlY2lzaW9uIGJyZWVkaW5nKiouIEJ5IGlkZW50aWZ5aW5nIGNvd3Mgd2l0aCBvcHRpbWFsIGdlbmV0aWMgbWFya2VycyBmb3IgbWlsayBwcm9kdWN0aW9uLCBmYXJtZXJzIGFuZCBicmVlZGVycyBjYW4gbWFrZSBtb3JlIGluZm9ybWVkIGRlY2lzaW9ucyB0byBlbmhhbmNlIHByb2R1Y3Rpdml0eSBhbmQgc3VzdGFpbmFiaWxpdHkuCgojIyMjICoqU2NpZW50aWZpYyBDb25jbHVzaW9uKio6ClRoZSBwcm9qZWN0IGRlbW9uc3RyYXRlcyB0aGF0ICoqUmFuZG9tIEZvcmVzdCoqIGlzIGEgbW9yZSBlZmZlY3RpdmUgbW9kZWwgdGhhbiAqKkxpbmVhciBSZWdyZXNzaW9uKiogZm9yIHByZWRpY3RpbmcgbWlsayB5aWVsZCBiYXNlZCBvbiBnZW5vbWljIGRhdGEgZHVlIHRvIGl0cyBhYmlsaXR5IHRvIGhhbmRsZSBub24tbGluZWFyIHJlbGF0aW9uc2hpcHMgYW5kIGludGVyYWN0aW9ucyBiZXR3ZWVuIFNOUHMuIFRoaXMgYXBwcm9hY2ggcHJvdmlkZXMgYSB2YWx1YWJsZSBmcmFtZXdvcmsgZm9yICoqcHJlY2lzaW9uIGJyZWVkaW5nKiosIGVuYWJsaW5nIGZhcm1lcnMgdG8gb3B0aW1pemUgbWlsayBwcm9kdWN0aW9uIHRocm91Z2ggZGF0YS1kcml2ZW4gZ2VuZXRpYyBzZWxlY3Rpb24uCgpUaGlzIG1ldGhvZG9sb2d5IGNhbiBiZSBhcHBsaWVkIGJ5ICBjb21wYW5pZXMgaW52b2x2ZWQgaW4gKipsaXZlc3RvY2sgaGVhbHRoKiogYW5kICoqcHJvZHVjdGl2aXR5IGVuaGFuY2VtZW50KiosIHNob3djYXNpbmcgdGhlIHBvdGVudGlhbCBvZiAqKm1hY2hpbmUgbGVhcm5pbmcqKiBpbiBpbXByb3ZpbmcgZGFpcnkgcHJvZHVjdGlvbiBvdXRjb21lcy4KCgoKCg==

	SNP_1 <int>	SNP_2 <int>	SNP_3 <int>	SNP_4 <int>	SNP_5 <int>	SNP_6 <int>	SNP_7 <int>	SNP_8 <int>	SNP_9 <int>
1	2	1	1	2	2	1	2	2	2
2	2	1	2	2	1	1	2	0	2
3	2	2	1	0	0	2	0	0	2
4	1	1	0	1	0	2	0	2	2
5	2	2	2	2	0	0	1	2	0
6	1	2	0	0	0	0	2	0	1

	SNP_1 <int>	SNP_2 <int>	SNP_3 <int>	SNP_4 <int>	SNP_5 <int>	SNP_6 <int>	SNP_7 <int>	SNP_8 <int>	SNP_9 <int>
1	2	1	1	2	2	1	2	2	2
2	2	1	2	2	1	1	2	0	2
3	2	2	1	0	0	2	0	0	2
4	1	1	0	1	0	2	0	2	2
5	2	2	2	2	0	0	1	2	0
6	1	2	0	0	0	0	2	0	1

	SNP_1 <int>	SNP_2 <int>	SNP_3 <int>	SNP_4 <int>	SNP_5 <int>	SNP_6 <int>	SNP_7 <int>	SNP_8 <int>	SNP_9 <int>
1	2	1	1	2	2	1	2	2	2
2	2	1	2	2	1	1	2	0	2
3	2	2	1	0	0	2	0	0	2
4	1	1	0	1	0	2	0	2	2
5	2	2	2	2	0	0	1	2	0
6	1	2	0	0	0	0	2	0	1