Antes de comenzar a analizar los modelos predictivos para la temperatura de la estacion Black Rock, se debe cargar la base de datos en R.
setwd("C:/Users/Daniel/Documents/Series de Tiempo/Bases")
blackrock <- read.csv("08 EstacionBlackRock.csv", header=T, na.strings=-999.)
library(knitr)
knitr::kable(blackrock)
| Year | Month | Temp |
|---|---|---|
| 2005 | 11 | 6.1 |
| 2005 | 12 | 5.2 |
| 2006 | 1 | 7.2 |
| 2006 | 2 | 5.5 |
| 2006 | 3 | 7.6 |
| 2006 | 4 | 10.0 |
| 2006 | 5 | 13.2 |
| 2006 | 6 | 16.4 |
| 2006 | 7 | 18.0 |
| 2006 | 8 | 16.9 |
| 2006 | 9 | 14.6 |
Como se puede observar la base de datos esta constituida por tres variables: año,mes y temperatura
Teniendo en cuenta la base de datos anterior se adicionara una nueva variable de un tiempo t que va de 1 a 11 para cada uno de los datos.
blackrock$t<-1:11
knitr::kable(blackrock)
| Year | Month | Temp | t |
|---|---|---|---|
| 2005 | 11 | 6.1 | 1 |
| 2005 | 12 | 5.2 | 2 |
| 2006 | 1 | 7.2 | 3 |
| 2006 | 2 | 5.5 | 4 |
| 2006 | 3 | 7.6 | 5 |
| 2006 | 4 | 10.0 | 6 |
| 2006 | 5 | 13.2 | 7 |
| 2006 | 6 | 16.4 | 8 |
| 2006 | 7 | 18.0 | 9 |
| 2006 | 8 | 16.9 | 10 |
| 2006 | 9 | 14.6 | 11 |
Entonces la grafica quedaria de la siguiente manera:
Los datos se ajustaran al modelo de regresion lineal simple con la funcion lm, y luego se aplicara la funcion summary para aplicar el modelo ANOVA a los datos.
moda<-lm(Temp~t,data=blackrock)
summary(moda)
##
## Call:
## lm(formula = Temp ~ t, data = blackrock)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1500 -1.4950 0.2936 1.3882 2.9609
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.8400 1.4227 1.996 0.077028 .
## t 1.3555 0.2098 6.462 0.000117 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.2 on 9 degrees of freedom
## Multiple R-squared: 0.8227, Adjusted R-squared: 0.803
## F-statistic: 41.75 on 1 and 9 DF, p-value: 0.0001165
Al analizar este modelo lineal se puede observar que la relacion de los meses y la temperatura es estadisticamente significativa (p<0.05) con un \(R^{2}\) del 80.3% lo cual indica la variabilidad en la temperatura basada en los meses. Se calcula el criterio de informacion de Akaike (AIC) para evaluar la calidad de este modelo estadistico.
AIC(moda)
## [1] 52.35623
Para el modelo cuadratico se incluira la variable \(t^{2}\) para incluirla en el modelo con la temperatura.
blackrock$tT<-blackrock$t^2
knitr::kable(blackrock)
| Year | Month | Temp | t | tT |
|---|---|---|---|---|
| 2005 | 11 | 6.1 | 1 | 1 |
| 2005 | 12 | 5.2 | 2 | 4 |
| 2006 | 1 | 7.2 | 3 | 9 |
| 2006 | 2 | 5.5 | 4 | 16 |
| 2006 | 3 | 7.6 | 5 | 25 |
| 2006 | 4 | 10.0 | 6 | 36 |
| 2006 | 5 | 13.2 | 7 | 49 |
| 2006 | 6 | 16.4 | 8 | 64 |
| 2006 | 7 | 18.0 | 9 | 81 |
| 2006 | 8 | 16.9 | 10 | 100 |
| 2006 | 9 | 14.6 | 11 | 121 |
Se aplican las mismas funciones que se realizaron en el modelo lineal para conocer su p-value, su \(R^{2}\) y su AIC para realizar una comparacion mas concisa.
mode<-lm(Temp~t+tT,data=blackrock)
summary(mode)
##
## Call:
## lm(formula = Temp ~ t + tT, data = blackrock)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1378 -1.5028 0.2928 1.3906 2.9601
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.8187879 2.5627033 1.100 0.303
## t 1.3652448 0.9815355 1.391 0.202
## tT -0.0008159 0.0796655 -0.010 0.992
##
## Residual standard error: 2.334 on 8 degrees of freedom
## Multiple R-squared: 0.8227, Adjusted R-squared: 0.7783
## F-statistic: 18.56 on 2 and 8 DF, p-value: 0.0009888
En el modelo cuadratico se puede apreciar que el pvalue es 0.00098 y el \(R^{2}\) es del 77.8% lo que indica que es un buen modelo pero que comparado con el lineal, el modelo lineal es mas preciso ya que su p-value es menor y su \(R^{2}\) es mayor. Ahora se calcula su AIC para evaluar la calidad del modelo
AIC(mode)
## [1] 54.35608
Para este modelo se incluira otra variable \(t^{3}\) a la base de datos para poder realizar el analisis que se ha estado realizando con los demas modelos.
blackrock$tTr<-blackrock$t^3
knitr::kable(blackrock)
| Year | Month | Temp | t | tT | tTr |
|---|---|---|---|---|---|
| 2005 | 11 | 6.1 | 1 | 1 | 1 |
| 2005 | 12 | 5.2 | 2 | 4 | 8 |
| 2006 | 1 | 7.2 | 3 | 9 | 27 |
| 2006 | 2 | 5.5 | 4 | 16 | 64 |
| 2006 | 3 | 7.6 | 5 | 25 | 125 |
| 2006 | 4 | 10.0 | 6 | 36 | 216 |
| 2006 | 5 | 13.2 | 7 | 49 | 343 |
| 2006 | 6 | 16.4 | 8 | 64 | 512 |
| 2006 | 7 | 18.0 | 9 | 81 | 729 |
| 2006 | 8 | 16.9 | 10 | 100 | 1000 |
| 2006 | 9 | 14.6 | 11 | 121 | 1331 |
Se aplican las mismas funciones que se realizaron en el modelo lineal y en el cuadratico para conocer su p-value, su \(R^{2}\) y su AIC.
modo<-lm(Temp~t+tT+tTr,data=blackrock)
summary(modo)
##
## Call:
## lm(formula = Temp ~ t + tT + tTr, data = blackrock)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.9809 -0.7365 -0.3818 0.4260 2.2513
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.91970 2.07027 5.275 0.00115 **
## t -5.32617 1.42883 -3.728 0.00738 **
## tT 1.33450 0.27068 4.930 0.00169 **
## tTr -0.07418 0.01487 -4.988 0.00159 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.169 on 7 degrees of freedom
## Multiple R-squared: 0.9611, Adjusted R-squared: 0.9444
## F-statistic: 57.59 on 3 and 7 DF, p-value: 2.671e-05
Al mirar el resultado del ANOVA para el modelo del polinomio de tercer grado se puede apreciar como su p-value es menor a comparacion con el del modelo lineal y cuadratico, y tambien se puede registrar un \(R^{2}\) del 94.4% lo que significa que abarca mas la variabilidad de los datos entre la temperatura y los meses a comparacion de los otros dos modelos. Se calcula el AIC.
AIC(modo)
## [1] 39.68001
Para este modelo se tomara el logaritmo de cada dato de la temperatura y relacionarlo con el tiempo t para observar su comportamiento.
blackrock$lnTemp<-log(blackrock$Temp)
knitr::kable(blackrock)
| Year | Month | Temp | t | tT | tTr | lnTemp |
|---|---|---|---|---|---|---|
| 2005 | 11 | 6.1 | 1 | 1 | 1 | 1.808289 |
| 2005 | 12 | 5.2 | 2 | 4 | 8 | 1.648659 |
| 2006 | 1 | 7.2 | 3 | 9 | 27 | 1.974081 |
| 2006 | 2 | 5.5 | 4 | 16 | 64 | 1.704748 |
| 2006 | 3 | 7.6 | 5 | 25 | 125 | 2.028148 |
| 2006 | 4 | 10.0 | 6 | 36 | 216 | 2.302585 |
| 2006 | 5 | 13.2 | 7 | 49 | 343 | 2.580217 |
| 2006 | 6 | 16.4 | 8 | 64 | 512 | 2.797281 |
| 2006 | 7 | 18.0 | 9 | 81 | 729 | 2.890372 |
| 2006 | 8 | 16.9 | 10 | 100 | 1000 | 2.827314 |
| 2006 | 9 | 14.6 | 11 | 121 | 1331 | 2.681021 |
Se realiza el mismo procedimiento que con los otros tres modelos para conocer sus propiedades estadisticas.
modaa<-lm(lnTemp~t,data=blackrock)
summary(modaa)
##
## Call:
## lm(formula = lnTemp ~ t, data = blackrock)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32524 -0.12538 0.00779 0.16427 0.23768
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.50038 0.13102 11.452 1.15e-06 ***
## t 0.13240 0.01932 6.854 7.44e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2026 on 9 degrees of freedom
## Multiple R-squared: 0.8392, Adjusted R-squared: 0.8214
## F-statistic: 46.98 on 1 and 9 DF, p-value: 7.439e-05
Al analizar este modelo, se observa que su p-value es del 0.0000743 y su \(R^{2}\) es del 82.1% de variabilidad de la temperatura con respecto al tiempo. Ahora como se ha ido realizando con los demas modelos se calcula el AIC para determinar el valor de este modelo.
AIC(modaa)
## [1] -0.1142122
En este modelo se le sumara los datos con el logaritmo la variable \(t^{2}\) y se le aplicara ANOVA.
modi<-lm(lnTemp~t+tT,data=blackrock)
summary(modi)
##
## Call:
## lm(formula = lnTemp ~ t + tT, data = blackrock)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.34050 -0.12920 0.01817 0.16298 0.22242
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.434247 0.234214 6.124 0.000282 ***
## t 0.162924 0.089706 1.816 0.106871
## tT -0.002543 0.007281 -0.349 0.735857
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2133 on 8 degrees of freedom
## Multiple R-squared: 0.8416, Adjusted R-squared: 0.8021
## F-statistic: 21.26 on 2 and 8 DF, p-value: 0.0006289
Ahora calculamos el AIC:
AIC(modi)
## [1] 1.71926
En este modelo se le sumara los datos con el logaritmo la variable \(t^{3}\) y se le aplicara ANOVA y se calcula el AIC
modii<-lm(lnTemp~t+tT+tTr,data=blackrock)
summary(modii)
##
## Call:
## lm(formula = lnTemp ~ t + tT + tTr, data = blackrock)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.15872 -0.03787 -0.01764 0.02072 0.24783
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.153456 0.207289 10.389 1.66e-05 ***
## t -0.431148 0.143064 -3.014 0.01956 *
## tT 0.116007 0.027102 4.280 0.00365 **
## tTr -0.006586 0.001489 -4.423 0.00307 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.117 on 7 degrees of freedom
## Multiple R-squared: 0.9583, Adjusted R-squared: 0.9404
## F-statistic: 53.57 on 3 and 7 DF, p-value: 3.401e-05
AIC(modii)
## [1] -10.94902
Como sep puede apreciar este modelo cuenta con un p-value de 0.000034 lo cual lo hace muy confiable y su \(R^{2}\) es sobre el 94% de los datos.
Ahora se realiza una comparacion de modelos para identificar cual de todos los modelos se adapta mejor a los datos entregados por la estacion Black Rock.
AIC(moda) #Lineal
## [1] 52.35623
AIC(mode) #Cuadratico
## [1] 54.35608
AIC(modo) #Polinomio Tercer Grado
## [1] 39.68001
AIC(modaa) #Exponencial t
## [1] -0.1142122
AIC(modi) #Exponencial t^2
## [1] 1.71926
AIC(modii) #Exponencial t^3
## [1] -10.94902
Como se puede apreciar, el modelo que mejor se adapta a los datos dependiendo su AIC es el modelo de Crecimiento Exponencial de \(t^{3}\), se grafica sobre los datos verdaderos para notar el ajuste de este modelo a los datos verdaderos.
blackrock$Tempmodelo<-exp(predict(modii, newdata = blackrock))
knitr::kable(blackrock)
| Year | Month | Temp | t | tT | tTr | lnTemp | Tempmodelo |
|---|---|---|---|---|---|---|---|
| 2005 | 11 | 6.1 | 1 | 1 | 1 | 1.808289 | 6.244676 |
| 2005 | 12 | 5.2 | 2 | 4 | 8 | 1.648659 | 5.487653 |
| 2006 | 1 | 7.2 | 3 | 9 | 27 | 1.974081 | 5.619558 |
| 2006 | 2 | 5.5 | 4 | 16 | 64 | 1.704748 | 6.446063 |
| 2006 | 3 | 7.6 | 5 | 25 | 125 | 2.028148 | 7.961625 |
| 2006 | 4 | 10.0 | 6 | 36 | 216 | 2.302585 | 10.177982 |
| 2006 | 5 | 13.2 | 7 | 49 | 343 | 2.580217 | 12.945309 |
| 2006 | 6 | 16.4 | 8 | 64 | 512 | 2.797281 | 15.746787 |
| 2006 | 7 | 18.0 | 9 | 81 | 729 | 2.890372 | 17.609145 |
| 2006 | 8 | 16.9 | 10 | 100 | 1000 | 2.827314 | 17.401607 |
| 2006 | 9 | 14.6 | 11 | 121 | 1331 | 2.681021 | 14.607746 |
En la tabla se puede observar ya como los datos del modelo ajustado (Tempmodelo) soy muy confiables para poder realizar una prediccion en el tiempo.
Como resultado al graficar la temperatura del modelo con la de los datos reales vemos que si existe una aproximacion a la de los datos reales. Donde la liena roja representa los datos reales y la negra el modelo ajustado.
.