AS2-3: Detecting Flu Epidemics via Search Engine Query Data

Section-1

【1.1】 Looking at the time period 2004-2011, which week corresponds to the highest percentage of ILI-related physician visits? Which week corresponds to the highest percentage of ILI-related query fraction?

Ans: 2009-10-18 - 2009-10-24

TR[which.max(TR$ILI),]

                       Week      ILI Queries
303 2009-10-18 - 2009-10-24 7.618892       1

TR[which.max(TR$Queries),]

                       Week      ILI Queries
303 2009-10-18 - 2009-10-24 7.618892       1

【1.2】 Let us now understand the data at an aggregate level. Plot the histogram of the dependent variable, ILI. What best describes the distribution of values of ILI?

Ans: Most of the ILI values are small, with a relatively small number of much larger values (in statistics, this sort of data is called “skew right”).

【1.3】 Plot the natural logarithm of ILI versus Queries. What does the plot suggest?.

Ans: There is a positive, linear relationship between log(ILI) and Queries.

Section-2

【2.1】 Based on the plot we just made, it seems that a linear regression model could be a good modeling choice. Based on our understanding of the data from the previous subproblem, which model best describes our estimation problem?

Ans: log(ILI) = intercept + coefficient x Queries, where the coefficient is positive

【2.2】 Let’s call the regression model from the previous problem (Problem 2.1) FluTrend1 and run it in R. Hint: to take the logarithm of a variable Var in a regression equation, you simply use log(Var) when specifying the formula to the lm() function.

What is the training set R-squared value for FluTrend1 model (the “Multiple R-squared”)?

Ans: 0.709

TR1 = lm(log(TR$ILI)~Queries, data = TR)
summary(TR1)


Call:
lm(formula = log(TR$ILI) ~ Queries, data = TR)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.76003 -0.19696 -0.01657  0.18685  1.06450 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.49934    0.03041  -16.42   <2e-16 ***
Queries      2.96129    0.09312   31.80   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2995 on 415 degrees of freedom
Multiple R-squared:  0.709, Adjusted R-squared:  0.7083 
F-statistic:  1011 on 1 and 415 DF,  p-value: < 2.2e-16

【2.3】 For a single variable linear regression model, there is a direct relationship between the R-squared and the correlation between the independent and the dependent variables. What is the relationship we infer from our problem? (Don’t forget that you can use the cor function to compute the correlation between two variables.)

Ans: R-squared = Correlation^2

cor(log(TR$ILI), TR$Queries)

[1] 0.8420333

0.709 / cor(log(TR$ILI), TR$Queries)

[1] 0.8420095

Section-3

【3.1】 What is our estimate for the percentage of ILI-related physician visits for the week of March 11, 2012? (HINT: You can either just output FluTest$Week to find which element corresponds to March 11, 2012, or you can use the “which” function in R. To learn more about the which function, type ?which in your R console.)

Ans: 2.187378

PredTS[which(TS$Week=="2012-03-11 - 2012-03-17")]

      11 
2.187378

【3.2】 What is the relative error betweeen the estimate (our prediction) and the observed value for the week of March 11, 2012? Note that the relative error is calculated as (Observed ILI - Estimated ILI)/Observed ILI

Ans: 0.04623827

(TS$ILI[11]-PredTS[11])/TS$ILI[11]

        11 
0.04623827

【3.3】 What is the Root Mean Square Error (RMSE) between our estimates and the actual observations for the percentage of ILI-related physician visits, on the test set?

Ans:0.7490645

RMSE

[1] 0.7490645

Section-4

【4.1】 In these commands, the value of -2 passed to lag means to return 2 observations before the current one; a positive value would have returned future observations. The parameter na.pad=TRUE means to add missing values for the first two weeks of our dataset, where we can’t compute the data from 2 weeks earlier.

How many values are missing in the new ILILag2 variable?

Ans: 2

ILILag2 = lag(zoo(TR$ILI), -2, na.pad=TRUE)
TR$ILILag2 = coredata(ILILag2)
sum(is.na(ILILag2))

[1] 2

【4.2】 Use the plot() function to plot the log of ILILag2 against the log of ILI. Which best describes the relationship between these two variables?

Ans: There is a strong positive relationship between log(ILILag2) and log(ILI).

plot(log(TR$ILILag2),log(TR$ILI))

【4.3】 Train a linear regression model on the FluTrain dataset to predict the log of the ILI variable using the Queries variable as well as the log of the ILILag2 variable. Which coefficients are significant at the p=0.05 level in this regression model? What is the R^2 value of the FluTrend2 model?

Ans: Intercept, Queries, and log(ILILag2). R-sq = 0.9063

TR2 = lm(log(ILI) ~ Queries + log(ILILag2), TR)
summary(TR2)


Call:
lm(formula = log(ILI) ~ Queries + log(ILILag2), data = TR)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.52209 -0.11082 -0.01819  0.08143  0.76785 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.24064    0.01953  -12.32   <2e-16 ***
Queries       1.25578    0.07910   15.88   <2e-16 ***
log(ILILag2)  0.65569    0.02251   29.14   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1703 on 412 degrees of freedom
  (2 observations deleted due to missingness)
Multiple R-squared:  0.9063,    Adjusted R-squared:  0.9059 
F-statistic:  1993 on 2 and 412 DF,  p-value: < 2.2e-16

【4.4】 On the basis of R-squared value and significance of coefficients, which statement is the most accurate?

Ans: FluTrend2 is a stronger model than FluTrend1 on the training set.

Section-5

【5.1】 So far, we have only added the ILILag2 variable to the FluTrain data frame. To make predictions with our FluTrend2 model, we will also need to add ILILag2 to the FluTest data frame (note that adding variables before splitting into a training and testing set can prevent this duplication of effort).

Modify the code from the previous subproblem to add an ILILag2 variable to the FluTest data frame. How many missing values are there in this new variable?

Ans: 2

TS$ILILag2 = dplyr::lag(TS$ILI,2)
is.na(TS$ILILag2) %>% sum

[1] 2

【5.2】 In this problem, the training and testing sets are split sequentially – the training set contains all observations from 2004-2011 and the testing set contains all observations from 2012. There is no time gap between the two datasets, meaning the first observation in FluTest was recorded one week after the last observation in FluTrain. From this, we can identify how to fill in the missing values for the ILILag2 variable in FluTest.

Which value should be used to fill in the ILILag2 variable for the first observation in FluTest? Which value should be used to fill in the ILILag2 variable for the second observation in FluTest?

Ans: The ILI value of the second-to-last observation in the FluTrain data frame. The ILI value of the last observation in the FluTrain data frame.

【5.3】 Fill in the missing values for ILILag2 in FluTest. In terms of syntax, you could set the value of ILILag2 in row “x” of the FluTest data frame to the value of ILI in row “y” of the FluTrain data frame with “FluTest$ILILag2[x] = FluTrain$ILI[y]”. Use the answer to the previous questions to determine the appropriate values of “x” and “y”. It may be helpful to check the total number of rows in FluTrain using str(FluTrain) or nrow(FluTrain).

What is the new value of the ILILag2 variable in the first row of FluTest? What is the new value of the ILILag2 variable in the second row of FluTest?

Ans: 1.852736, 2.12413

nrow(TR)

[1] 417

TS$ILILag2[2] = TR$ILI[417]
TS$ILILag2[1] = TR$ILI[416]
TS$ILILag2[1]

[1] 1.852736

TS$ILILag2[2]

[1] 2.12413

【5.4】 Obtain test set predictions of the ILI variable from the FluTrend2 model, again remembering to call the exp() function on the result of the predict() function to obtain predictions for ILI instead of log(ILI).

What is the test-set RMSE of the FluTrend2 model?

Ans: 0.2942029

PredTS = exp(predict(TR2, TS))
SSE = sum((PredTS- TS$ILI)^2)
RMSE = sqrt(SSE/nrow(TS))
RMSE

[1] 0.2942029

【5.5】 Which model obtained the best test-set RMSE?

Ans: FluTrend2. The test-set RMSE of FluTrend2 is 0.294, as opposed to the 0.749 value obtained by the FluTrend1 model.

LS0tDQp0aXRsZTogIkFTMi0zOiBEZXRlY3RpbmcgRmx1IEVwaWRlbWljcyB2aWEgU2VhcmNoIEVuZ2luZSBRdWVyeSBEYXRhIg0KYXV0aG9yOiAi5ZSQ5oCd55CqIEIwNDEwMTAwMDQgMjAxOC8wNy8wOSINCm91dHB1dDogaHRtbF9ub3RlYm9vaw0KLS0tDQoNCi0gLSAtDQoNCiMjIyMgIFNlY3Rpb24tMSANCg0K44CQMS4x44CRIExvb2tpbmcgYXQgdGhlIHRpbWUgcGVyaW9kIDIwMDQtMjAxMSwgd2hpY2ggd2VlayBjb3JyZXNwb25kcyB0byB0aGUgaGlnaGVzdCBwZXJjZW50YWdlIG9mIElMSS1yZWxhdGVkIHBoeXNpY2lhbiB2aXNpdHM/IFdoaWNoIHdlZWsgY29ycmVzcG9uZHMgdG8gdGhlIGhpZ2hlc3QgcGVyY2VudGFnZSBvZiBJTEktcmVsYXRlZCBxdWVyeSBmcmFjdGlvbj8NCg0KIyMjIyMjQW5zOiAyMDA5LTEwLTE4IC0gMjAwOS0xMC0yNA0KDQpgYGB7cn0NClRSW3doaWNoLm1heChUUiRJTEkpLF0NClRSW3doaWNoLm1heChUUiRRdWVyaWVzKSxdDQpgYGANCg0KDQrjgJAxLjLjgJEgTGV0IHVzIG5vdyB1bmRlcnN0YW5kIHRoZSBkYXRhIGF0IGFuIGFnZ3JlZ2F0ZSBsZXZlbC4gUGxvdCB0aGUgaGlzdG9ncmFtIG9mIHRoZSBkZXBlbmRlbnQgdmFyaWFibGUsIElMSS4gV2hhdCBiZXN0IGRlc2NyaWJlcyB0aGUgZGlzdHJpYnV0aW9uIG9mIHZhbHVlcyBvZiBJTEk/DQoNCiMjI0FuczogTW9zdCBvZiB0aGUgSUxJIHZhbHVlcyBhcmUgc21hbGwsIHdpdGggYSByZWxhdGl2ZWx5IHNtYWxsIG51bWJlciBvZiBtdWNoIGxhcmdlciB2YWx1ZXMgKGluIHN0YXRpc3RpY3MsIHRoaXMgc29ydCBvZiBkYXRhIGlzIGNhbGxlZCAic2tldyByaWdodCIpLiANCg0KDQpgYGB7cn0NCmhpc3QoVFIkSUxJKQ0KYGBgDQoNCuOAkDEuM+OAkSBQbG90IHRoZSBuYXR1cmFsIGxvZ2FyaXRobSBvZiBJTEkgdmVyc3VzIFF1ZXJpZXMuIFdoYXQgZG9lcyB0aGUgcGxvdCBzdWdnZXN0Py4NCg0KIyMjIyMjQW5zOiBUaGVyZSBpcyBhIHBvc2l0aXZlLCBsaW5lYXIgcmVsYXRpb25zaGlwIGJldHdlZW4gbG9nKElMSSkgYW5kIFF1ZXJpZXMuDQoNCg0KYGBge3J9DQpwbG90KFRSJFF1ZXJpZXMsIGxvZyhUUiRJTEkpKQ0KYGBgDQoNCg0KPGJyPjxicj4NCg0KLSAtIC0NCg0KIyMjIyBTZWN0aW9uLTIgDQoNCuOAkDIuMeOAkSBCYXNlZCBvbiB0aGUgcGxvdCB3ZSBqdXN0IG1hZGUsIGl0IHNlZW1zIHRoYXQgYSBsaW5lYXIgcmVncmVzc2lvbiBtb2RlbCBjb3VsZCBiZSBhIGdvb2QgbW9kZWxpbmcgY2hvaWNlLiBCYXNlZCBvbiBvdXIgdW5kZXJzdGFuZGluZyBvZiB0aGUgZGF0YSBmcm9tIHRoZSBwcmV2aW91cyBzdWJwcm9ibGVtLCB3aGljaCBtb2RlbCBiZXN0IGRlc2NyaWJlcyBvdXIgZXN0aW1hdGlvbiBwcm9ibGVtPw0KDQojIyMjIyNBbnM6IGxvZyhJTEkpID0gaW50ZXJjZXB0ICsgY29lZmZpY2llbnQgeCBRdWVyaWVzLCB3aGVyZSB0aGUgY29lZmZpY2llbnQgaXMgcG9zaXRpdmUgDQoNCuOAkDIuMuOAkSBMZXQncyBjYWxsIHRoZSByZWdyZXNzaW9uIG1vZGVsIGZyb20gdGhlIHByZXZpb3VzIHByb2JsZW0gKFByb2JsZW0gMi4xKSBGbHVUcmVuZDEgYW5kIHJ1biBpdCBpbiBSLiBIaW50OiB0byB0YWtlIHRoZSBsb2dhcml0aG0gb2YgYSB2YXJpYWJsZSBWYXIgaW4gYSByZWdyZXNzaW9uIGVxdWF0aW9uLCB5b3Ugc2ltcGx5IHVzZSBsb2coVmFyKSB3aGVuIHNwZWNpZnlpbmcgdGhlIGZvcm11bGEgdG8gdGhlIGxtKCkgZnVuY3Rpb24uDQoNCldoYXQgaXMgdGhlIHRyYWluaW5nIHNldCBSLXNxdWFyZWQgdmFsdWUgZm9yIEZsdVRyZW5kMSBtb2RlbCAodGhlICJNdWx0aXBsZSBSLXNxdWFyZWQiKT8NCg0KIyMjIyMjQW5zOiAwLjcwOQ0KDQpgYGB7cn0NClRSMSA9IGxtKGxvZyhUUiRJTEkpflF1ZXJpZXMsIGRhdGEgPSBUUikNCnN1bW1hcnkoVFIxKQ0KYGBgDQoNCuOAkDIuM+OAkSBGb3IgYSBzaW5nbGUgdmFyaWFibGUgbGluZWFyIHJlZ3Jlc3Npb24gbW9kZWwsIHRoZXJlIGlzIGEgZGlyZWN0IHJlbGF0aW9uc2hpcCBiZXR3ZWVuIHRoZSBSLXNxdWFyZWQgYW5kIHRoZSBjb3JyZWxhdGlvbiBiZXR3ZWVuIHRoZSBpbmRlcGVuZGVudCBhbmQgdGhlIGRlcGVuZGVudCB2YXJpYWJsZXMuIFdoYXQgaXMgdGhlIHJlbGF0aW9uc2hpcCB3ZSBpbmZlciBmcm9tIG91ciBwcm9ibGVtPyAoRG9uJ3QgZm9yZ2V0IHRoYXQgeW91IGNhbiB1c2UgdGhlIGNvciBmdW5jdGlvbiB0byBjb21wdXRlIHRoZSBjb3JyZWxhdGlvbiBiZXR3ZWVuIHR3byB2YXJpYWJsZXMuKQ0KDQojIyMjIyNBbnM6IFItc3F1YXJlZCA9IENvcnJlbGF0aW9uXjINCg0KYGBge3J9DQpjb3IobG9nKFRSJElMSSksIFRSJFF1ZXJpZXMpDQowLjcwOSAvIGNvcihsb2coVFIkSUxJKSwgVFIkUXVlcmllcykNCmBgYA0KDQoNCg0KDQo8YnI+PGJyPg0KDQotIC0gLQ0KDQojIyMjIFNlY3Rpb24tMyANCg0K44CQMy4x44CRIFdoYXQgaXMgb3VyIGVzdGltYXRlIGZvciB0aGUgcGVyY2VudGFnZSBvZiBJTEktcmVsYXRlZCBwaHlzaWNpYW4gdmlzaXRzIGZvciB0aGUgd2VlayBvZiBNYXJjaCAxMSwgMjAxMj8gKEhJTlQ6IFlvdSBjYW4gZWl0aGVyIGp1c3Qgb3V0cHV0IEZsdVRlc3QkV2VlayB0byBmaW5kIHdoaWNoIGVsZW1lbnQgY29ycmVzcG9uZHMgdG8gTWFyY2ggMTEsIDIwMTIsIG9yIHlvdSBjYW4gdXNlIHRoZSAid2hpY2giIGZ1bmN0aW9uIGluIFIuIFRvIGxlYXJuIG1vcmUgYWJvdXQgdGhlIHdoaWNoIGZ1bmN0aW9uLCB0eXBlID93aGljaCBpbiB5b3VyIFIgY29uc29sZS4pDQoNCiMjIyMjI0FuczogMi4xODczNzgNCg0KYGBge3J9DQpQcmVkVFMgPSBleHAocHJlZGljdChUUjEsIG5ld2RhdGEgPSBUUykpDQpQcmVkVFNbd2hpY2goVFMkV2Vlaz09IjIwMTItMDMtMTEgLSAyMDEyLTAzLTE3IildDQpgYGANCg0K44CQMy4y44CRIFdoYXQgaXMgdGhlIHJlbGF0aXZlIGVycm9yIGJldHdlZWVuIHRoZSBlc3RpbWF0ZSAob3VyIHByZWRpY3Rpb24pIGFuZCB0aGUgb2JzZXJ2ZWQgdmFsdWUgZm9yIHRoZSB3ZWVrIG9mIE1hcmNoIDExLCAyMDEyPyBOb3RlIHRoYXQgdGhlIHJlbGF0aXZlIGVycm9yIGlzIGNhbGN1bGF0ZWQgYXMgKE9ic2VydmVkIElMSSAtIEVzdGltYXRlZCBJTEkpL09ic2VydmVkIElMSQ0KDQojIyMjIyNBbnM6IDAuMDQ2MjM4MjcNCg0KYGBge3J9DQooVFMkSUxJWzExXS1QcmVkVFNbMTFdKS9UUyRJTElbMTFdDQpgYGANCg0KDQrjgJAzLjPjgJEgV2hhdCBpcyB0aGUgUm9vdCBNZWFuIFNxdWFyZSBFcnJvciAoUk1TRSkgYmV0d2VlbiBvdXIgZXN0aW1hdGVzIGFuZCB0aGUgYWN0dWFsIG9ic2VydmF0aW9ucyBmb3IgdGhlIHBlcmNlbnRhZ2Ugb2YgSUxJLXJlbGF0ZWQgcGh5c2ljaWFuIHZpc2l0cywgb24gdGhlIHRlc3Qgc2V0Pw0KDQojIyMjIyNBbnM6MC43NDkwNjQ1DQoNCmBgYHtyfQ0KU1NFID0gc3VtKChUUyRJTEktUHJlZFRTKV4yKQ0KUk1TRSA9IHNxcnQoU1NFL25yb3coVFMpKQ0KUk1TRQ0KYGBgDQoNCg0KDQo8YnI+PGJyPg0KDQotIC0gLQ0KDQojIyMjIFNlY3Rpb24tNCANCg0K44CQNC4x44CRIEluIHRoZXNlIGNvbW1hbmRzLCB0aGUgdmFsdWUgb2YgLTIgcGFzc2VkIHRvIGxhZyBtZWFucyB0byByZXR1cm4gMiBvYnNlcnZhdGlvbnMgYmVmb3JlIHRoZSBjdXJyZW50IG9uZTsgYSBwb3NpdGl2ZSB2YWx1ZSB3b3VsZCBoYXZlIHJldHVybmVkIGZ1dHVyZSBvYnNlcnZhdGlvbnMuIFRoZSBwYXJhbWV0ZXIgbmEucGFkPVRSVUUgbWVhbnMgdG8gYWRkIG1pc3NpbmcgdmFsdWVzIGZvciB0aGUgZmlyc3QgdHdvIHdlZWtzIG9mIG91ciBkYXRhc2V0LCB3aGVyZSB3ZSBjYW4ndCBjb21wdXRlIHRoZSBkYXRhIGZyb20gMiB3ZWVrcyBlYXJsaWVyLg0KDQpIb3cgbWFueSB2YWx1ZXMgYXJlIG1pc3NpbmcgaW4gdGhlIG5ldyBJTElMYWcyIHZhcmlhYmxlPw0KDQojIyMjIyNBbnM6IDINCg0KYGBge3J9DQpJTElMYWcyID0gbGFnKHpvbyhUUiRJTEkpLCAtMiwgbmEucGFkPVRSVUUpDQpUUiRJTElMYWcyID0gY29yZWRhdGEoSUxJTGFnMikNCnN1bShpcy5uYShJTElMYWcyKSkNCmBgYA0KDQrjgJA0LjLjgJEgVXNlIHRoZSBwbG90KCkgZnVuY3Rpb24gdG8gcGxvdCB0aGUgbG9nIG9mIElMSUxhZzIgYWdhaW5zdCB0aGUgbG9nIG9mIElMSS4gV2hpY2ggYmVzdCBkZXNjcmliZXMgdGhlIHJlbGF0aW9uc2hpcCBiZXR3ZWVuIHRoZXNlIHR3byB2YXJpYWJsZXM/DQoNCiMjIyMjI0FuczogVGhlcmUgaXMgYSBzdHJvbmcgcG9zaXRpdmUgcmVsYXRpb25zaGlwIGJldHdlZW4gbG9nKElMSUxhZzIpIGFuZCBsb2coSUxJKS4NCg0KYGBge3J9DQpwbG90KGxvZyhUUiRJTElMYWcyKSxsb2coVFIkSUxJKSkNCmBgYA0KDQoNCuOAkDQuM+OAkSBUcmFpbiBhIGxpbmVhciByZWdyZXNzaW9uIG1vZGVsIG9uIHRoZSBGbHVUcmFpbiBkYXRhc2V0IHRvIHByZWRpY3QgdGhlIGxvZyBvZiB0aGUgSUxJIHZhcmlhYmxlIHVzaW5nIHRoZSBRdWVyaWVzIHZhcmlhYmxlIGFzIHdlbGwgYXMgdGhlIGxvZyBvZiB0aGUgSUxJTGFnMiB2YXJpYWJsZS4gV2hpY2ggY29lZmZpY2llbnRzIGFyZSBzaWduaWZpY2FudCBhdCB0aGUgcD0wLjA1IGxldmVsIGluIHRoaXMgcmVncmVzc2lvbiBtb2RlbD8gV2hhdCBpcyB0aGUgUl4yIHZhbHVlIG9mIHRoZSBGbHVUcmVuZDIgbW9kZWw/DQoNCiMjIyMjI0FuczogSW50ZXJjZXB0LCBRdWVyaWVzLCBhbmQgbG9nKElMSUxhZzIpLiBSLXNxID0gMC45MDYzDQoNCmBgYHtyfQ0KVFIyID0gbG0obG9nKElMSSkgfiBRdWVyaWVzICsgbG9nKElMSUxhZzIpLCBUUikNCnN1bW1hcnkoVFIyKQ0KYGBgDQoNCuOAkDQuNOOAkSBPbiB0aGUgYmFzaXMgb2YgUi1zcXVhcmVkIHZhbHVlIGFuZCBzaWduaWZpY2FuY2Ugb2YgY29lZmZpY2llbnRzLCB3aGljaCBzdGF0ZW1lbnQgaXMgdGhlIG1vc3QgYWNjdXJhdGU/DQoNCiMjIyMjI0FuczogRmx1VHJlbmQyIGlzIGEgc3Ryb25nZXIgbW9kZWwgdGhhbiBGbHVUcmVuZDEgb24gdGhlIHRyYWluaW5nIHNldC4NCg0KDQoNCjxicj48YnI+DQoNCi0gLSAtDQoNCiMjIyMgU2VjdGlvbi01IA0K44CQNS4x44CRIFNvIGZhciwgd2UgaGF2ZSBvbmx5IGFkZGVkIHRoZSBJTElMYWcyIHZhcmlhYmxlIHRvIHRoZSBGbHVUcmFpbiBkYXRhIGZyYW1lLiBUbyBtYWtlIHByZWRpY3Rpb25zIHdpdGggb3VyIEZsdVRyZW5kMiBtb2RlbCwgd2Ugd2lsbCBhbHNvIG5lZWQgdG8gYWRkIElMSUxhZzIgdG8gdGhlIEZsdVRlc3QgZGF0YSBmcmFtZSAobm90ZSB0aGF0IGFkZGluZyB2YXJpYWJsZXMgYmVmb3JlIHNwbGl0dGluZyBpbnRvIGEgdHJhaW5pbmcgYW5kIHRlc3Rpbmcgc2V0IGNhbiBwcmV2ZW50IHRoaXMgZHVwbGljYXRpb24gb2YgZWZmb3J0KS4NCg0KTW9kaWZ5IHRoZSBjb2RlIGZyb20gdGhlIHByZXZpb3VzIHN1YnByb2JsZW0gdG8gYWRkIGFuIElMSUxhZzIgdmFyaWFibGUgdG8gdGhlIEZsdVRlc3QgZGF0YSBmcmFtZS4gSG93IG1hbnkgbWlzc2luZyB2YWx1ZXMgYXJlIHRoZXJlIGluIHRoaXMgbmV3IHZhcmlhYmxlPw0KDQojIyMjIyNBbnM6IDINCg0KYGBge3J9DQpUUyRJTElMYWcyID0gZHBseXI6OmxhZyhUUyRJTEksMikNCmlzLm5hKFRTJElMSUxhZzIpICU+JSBzdW0NCmBgYA0KDQrjgJA1LjLjgJEgSW4gdGhpcyBwcm9ibGVtLCB0aGUgdHJhaW5pbmcgYW5kIHRlc3Rpbmcgc2V0cyBhcmUgc3BsaXQgc2VxdWVudGlhbGx5IC0tIHRoZSB0cmFpbmluZyBzZXQgY29udGFpbnMgYWxsIG9ic2VydmF0aW9ucyBmcm9tIDIwMDQtMjAxMSBhbmQgdGhlIHRlc3Rpbmcgc2V0IGNvbnRhaW5zIGFsbCBvYnNlcnZhdGlvbnMgZnJvbSAyMDEyLiBUaGVyZSBpcyBubyB0aW1lIGdhcCBiZXR3ZWVuIHRoZSB0d28gZGF0YXNldHMsIG1lYW5pbmcgdGhlIGZpcnN0IG9ic2VydmF0aW9uIGluIEZsdVRlc3Qgd2FzIHJlY29yZGVkIG9uZSB3ZWVrIGFmdGVyIHRoZSBsYXN0IG9ic2VydmF0aW9uIGluIEZsdVRyYWluLiBGcm9tIHRoaXMsIHdlIGNhbiBpZGVudGlmeSBob3cgdG8gZmlsbCBpbiB0aGUgbWlzc2luZyB2YWx1ZXMgZm9yIHRoZSBJTElMYWcyIHZhcmlhYmxlIGluIEZsdVRlc3QuDQoNCldoaWNoIHZhbHVlIHNob3VsZCBiZSB1c2VkIHRvIGZpbGwgaW4gdGhlIElMSUxhZzIgdmFyaWFibGUgZm9yIHRoZSBmaXJzdCBvYnNlcnZhdGlvbiBpbiBGbHVUZXN0PyBXaGljaCB2YWx1ZSBzaG91bGQgYmUgdXNlZCB0byBmaWxsIGluIHRoZSBJTElMYWcyIHZhcmlhYmxlIGZvciB0aGUgc2Vjb25kIG9ic2VydmF0aW9uIGluIEZsdVRlc3Q/DQoNCiMjIyMjI0FuczogVGhlIElMSSB2YWx1ZSBvZiB0aGUgc2Vjb25kLXRvLWxhc3Qgb2JzZXJ2YXRpb24gaW4gdGhlIEZsdVRyYWluIGRhdGEgZnJhbWUuIFRoZSBJTEkgdmFsdWUgb2YgdGhlIGxhc3Qgb2JzZXJ2YXRpb24gaW4gdGhlIEZsdVRyYWluIGRhdGEgZnJhbWUuDQoNCuOAkDUuM+OAkSBGaWxsIGluIHRoZSBtaXNzaW5nIHZhbHVlcyBmb3IgSUxJTGFnMiBpbiBGbHVUZXN0LiBJbiB0ZXJtcyBvZiBzeW50YXgsIHlvdSBjb3VsZCBzZXQgdGhlIHZhbHVlIG9mIElMSUxhZzIgaW4gcm93ICJ4IiBvZiB0aGUgRmx1VGVzdCBkYXRhIGZyYW1lIHRvIHRoZSB2YWx1ZSBvZiBJTEkgaW4gcm93ICJ5IiBvZiB0aGUgRmx1VHJhaW4gZGF0YSBmcmFtZSB3aXRoICJGbHVUZXN0JElMSUxhZzJbeF0gPSBGbHVUcmFpbiRJTElbeV0iLiBVc2UgdGhlIGFuc3dlciB0byB0aGUgcHJldmlvdXMgcXVlc3Rpb25zIHRvIGRldGVybWluZSB0aGUgYXBwcm9wcmlhdGUgdmFsdWVzIG9mICJ4IiBhbmQgInkiLiBJdCBtYXkgYmUgaGVscGZ1bCB0byBjaGVjayB0aGUgdG90YWwgbnVtYmVyIG9mIHJvd3MgaW4gRmx1VHJhaW4gdXNpbmcgc3RyKEZsdVRyYWluKSBvciBucm93KEZsdVRyYWluKS4NCg0KV2hhdCBpcyB0aGUgbmV3IHZhbHVlIG9mIHRoZSBJTElMYWcyIHZhcmlhYmxlIGluIHRoZSBmaXJzdCByb3cgb2YgRmx1VGVzdD8gV2hhdCBpcyB0aGUgbmV3IHZhbHVlIG9mIHRoZSBJTElMYWcyIHZhcmlhYmxlIGluIHRoZSBzZWNvbmQgcm93IG9mIEZsdVRlc3Q/DQoNCiMjIyMjI0FuczogMS44NTI3MzYsIDIuMTI0MTMNCg0KYGBge3J9DQpucm93KFRSKQ0KVFMkSUxJTGFnMlsyXSA9IFRSJElMSVs0MTddDQpUUyRJTElMYWcyWzFdID0gVFIkSUxJWzQxNl0NClRTJElMSUxhZzJbMV0NClRTJElMSUxhZzJbMl0NCmBgYA0KDQrjgJA1LjTjgJEgT2J0YWluIHRlc3Qgc2V0IHByZWRpY3Rpb25zIG9mIHRoZSBJTEkgdmFyaWFibGUgZnJvbSB0aGUgRmx1VHJlbmQyIG1vZGVsLCBhZ2FpbiByZW1lbWJlcmluZyB0byBjYWxsIHRoZSBleHAoKSBmdW5jdGlvbiBvbiB0aGUgcmVzdWx0IG9mIHRoZSBwcmVkaWN0KCkgZnVuY3Rpb24gdG8gb2J0YWluIHByZWRpY3Rpb25zIGZvciBJTEkgaW5zdGVhZCBvZiBsb2coSUxJKS4NCg0KV2hhdCBpcyB0aGUgdGVzdC1zZXQgUk1TRSBvZiB0aGUgRmx1VHJlbmQyIG1vZGVsPw0KDQojIyMjIyNBbnM6IDAuMjk0MjAyOQ0KDQpgYGB7cn0NClByZWRUUyA9IGV4cChwcmVkaWN0KFRSMiwgVFMpKQ0KU1NFID0gc3VtKChQcmVkVFMtIFRTJElMSSleMikNClJNU0UgPSBzcXJ0KFNTRS9ucm93KFRTKSkNClJNU0UNCmBgYA0KDQrjgJA1LjXjgJEgV2hpY2ggbW9kZWwgb2J0YWluZWQgdGhlIGJlc3QgdGVzdC1zZXQgUk1TRT8NCg0KIyMjIyMjQW5zOiBGbHVUcmVuZDIuIFRoZSB0ZXN0LXNldCBSTVNFIG9mIEZsdVRyZW5kMiBpcyAwLjI5NCwgYXMgb3Bwb3NlZCB0byB0aGUgMC43NDkgdmFsdWUgb2J0YWluZWQgYnkgdGhlIEZsdVRyZW5kMSBtb2RlbC4=

AS2-3: Detecting Flu Epidemics via Search Engine Query Data

唐思琪 B041010004 2018/07/09

Section-1

Ans: 2009-10-18 - 2009-10-24

Ans: Most of the ILI values are small, with a relatively small number of much larger values (in statistics, this sort of data is called “skew right”).

Ans: There is a positive, linear relationship between log(ILI) and Queries.

Section-2

Ans: log(ILI) = intercept + coefficient x Queries, where the coefficient is positive

Ans: 0.709

Ans: R-squared = Correlation^2

Section-3

Ans: 2.187378

Ans: 0.04623827

Ans:0.7490645

Section-4

Ans: 2

Ans: There is a strong positive relationship between log(ILILag2) and log(ILI).

Ans: Intercept, Queries, and log(ILILag2). R-sq = 0.9063

Ans: FluTrend2 is a stronger model than FluTrend1 on the training set.

Section-5

Ans: 2

Ans: The ILI value of the second-to-last observation in the FluTrain data frame. The ILI value of the last observation in the FluTrain data frame.

Ans: 1.852736, 2.12413

Ans: 0.2942029

Ans: FluTrend2. The test-set RMSE of FluTrend2 is 0.294, as opposed to the 0.749 value obtained by the FluTrend1 model.