MODELOS PREDICTIVOS PARA LA TEMPERATURA DE LA ESTACION BLACK ROCK

Antes de comenzar a analizar los modelos predictivos para la temperatura de la estacion Black Rock, se debe cargar la base de datos en R.

setwd("C:/Users/Daniel/Documents/Series de Tiempo/Bases")
blackrock <- read.csv("08 EstacionBlackRock.csv", header=T, na.strings=-999.)
library(knitr)
knitr::kable(blackrock)
Year Month Temp
2005 11 6.1
2005 12 5.2
2006 1 7.2
2006 2 5.5
2006 3 7.6
2006 4 10.0
2006 5 13.2
2006 6 16.4
2006 7 18.0
2006 8 16.9
2006 9 14.6

Como se puede observar la base de datos esta constituida por tres variables: año,mes y temperatura

Grafica de la base de datos

Teniendo en cuenta la base de datos anterior se adicionara una nueva variable de un tiempo t que va de 1 a 11 para cada uno de los datos.

blackrock$t<-1:11
knitr::kable(blackrock)
Year Month Temp t
2005 11 6.1 1
2005 12 5.2 2
2006 1 7.2 3
2006 2 5.5 4
2006 3 7.6 5
2006 4 10.0 6
2006 5 13.2 7
2006 6 16.4 8
2006 7 18.0 9
2006 8 16.9 10
2006 9 14.6 11

Entonces la grafica quedaria de la siguiente manera:

Modelo Lineal

Los datos se ajustaran al modelo de regresion lineal simple con la funcion lm, y luego se aplicara la funcion summary para aplicar el modelo ANOVA a los datos.

moda<-lm(Temp~t,data=blackrock)
summary(moda)
## 
## Call:
## lm(formula = Temp ~ t, data = blackrock)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1500 -1.4950  0.2936  1.3882  2.9609 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   2.8400     1.4227   1.996 0.077028 .  
## t             1.3555     0.2098   6.462 0.000117 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.2 on 9 degrees of freedom
## Multiple R-squared:  0.8227, Adjusted R-squared:  0.803 
## F-statistic: 41.75 on 1 and 9 DF,  p-value: 0.0001165

Al analizar este modelo lineal se puede observar que la relacion de los meses y la temperatura es estadisticamente significativa (p<0.05) con un \(R^{2}\) del 80.3% lo cual indica la variabilidad en la temperatura basada en los meses. Se calcula el criterio de informacion de Akaike (AIC) para evaluar la calidad de este modelo estadistico.

AIC(moda)
## [1] 52.35623

Modelo Cuadratico

Para el modelo cuadratico se incluira la variable \(t^{2}\) para incluirla en el modelo con la temperatura.

blackrock$tT<-blackrock$t^2
knitr::kable(blackrock)
Year Month Temp t tT
2005 11 6.1 1 1
2005 12 5.2 2 4
2006 1 7.2 3 9
2006 2 5.5 4 16
2006 3 7.6 5 25
2006 4 10.0 6 36
2006 5 13.2 7 49
2006 6 16.4 8 64
2006 7 18.0 9 81
2006 8 16.9 10 100
2006 9 14.6 11 121

Se aplican las mismas funciones que se realizaron en el modelo lineal para conocer su p-value, su \(R^{2}\) y su AIC para realizar una comparacion mas concisa.

mode<-lm(Temp~t+tT,data=blackrock)
summary(mode)
## 
## Call:
## lm(formula = Temp ~ t + tT, data = blackrock)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1378 -1.5028  0.2928  1.3906  2.9601 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)
## (Intercept)  2.8187879  2.5627033   1.100    0.303
## t            1.3652448  0.9815355   1.391    0.202
## tT          -0.0008159  0.0796655  -0.010    0.992
## 
## Residual standard error: 2.334 on 8 degrees of freedom
## Multiple R-squared:  0.8227, Adjusted R-squared:  0.7783 
## F-statistic: 18.56 on 2 and 8 DF,  p-value: 0.0009888

En el modelo cuadratico se puede apreciar que el pvalue es 0.00098 y el \(R^{2}\) es del 77.8% lo que indica que es un buen modelo pero que comparado con el lineal, el modelo lineal es mas preciso ya que su p-value es menor y su \(R^{2}\) es mayor. Ahora se calcula su AIC para evaluar la calidad del modelo

AIC(mode)
## [1] 54.35608

Modelo del Polinomio de Tercer Grado

Para este modelo se incluira otra variable \(t^{3}\) a la base de datos para poder realizar el analisis que se ha estado realizando con los demas modelos.

blackrock$tTr<-blackrock$t^3
knitr::kable(blackrock)
Year Month Temp t tT tTr
2005 11 6.1 1 1 1
2005 12 5.2 2 4 8
2006 1 7.2 3 9 27
2006 2 5.5 4 16 64
2006 3 7.6 5 25 125
2006 4 10.0 6 36 216
2006 5 13.2 7 49 343
2006 6 16.4 8 64 512
2006 7 18.0 9 81 729
2006 8 16.9 10 100 1000
2006 9 14.6 11 121 1331

Se aplican las mismas funciones que se realizaron en el modelo lineal y en el cuadratico para conocer su p-value, su \(R^{2}\) y su AIC.

modo<-lm(Temp~t+tT+tTr,data=blackrock)
summary(modo)
## 
## Call:
## lm(formula = Temp ~ t + tT + tTr, data = blackrock)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.9809 -0.7365 -0.3818  0.4260  2.2513 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 10.91970    2.07027   5.275  0.00115 **
## t           -5.32617    1.42883  -3.728  0.00738 **
## tT           1.33450    0.27068   4.930  0.00169 **
## tTr         -0.07418    0.01487  -4.988  0.00159 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.169 on 7 degrees of freedom
## Multiple R-squared:  0.9611, Adjusted R-squared:  0.9444 
## F-statistic: 57.59 on 3 and 7 DF,  p-value: 2.671e-05

Al mirar el resultado del ANOVA para el modelo del polinomio de tercer grado se puede apreciar como su p-value es menor a comparacion con el del modelo lineal y cuadratico, y tambien se puede registrar un \(R^{2}\) del 94.4% lo que significa que abarca mas la variabilidad de los datos entre la temperatura y los meses a comparacion de los otros dos modelos. Se calcula el AIC.

AIC(modo)
## [1] 39.68001

Crecimiento Exponencial t

Para este modelo se tomara el logaritmo de cada dato de la temperatura y relacionarlo con el tiempo t para observar su comportamiento.

blackrock$lnTemp<-log(blackrock$Temp)
knitr::kable(blackrock)
Year Month Temp t tT tTr lnTemp
2005 11 6.1 1 1 1 1.808289
2005 12 5.2 2 4 8 1.648659
2006 1 7.2 3 9 27 1.974081
2006 2 5.5 4 16 64 1.704748
2006 3 7.6 5 25 125 2.028148
2006 4 10.0 6 36 216 2.302585
2006 5 13.2 7 49 343 2.580217
2006 6 16.4 8 64 512 2.797281
2006 7 18.0 9 81 729 2.890372
2006 8 16.9 10 100 1000 2.827314
2006 9 14.6 11 121 1331 2.681021

Se realiza el mismo procedimiento que con los otros tres modelos para conocer sus propiedades estadisticas.

modaa<-lm(lnTemp~t,data=blackrock)
summary(modaa)
## 
## Call:
## lm(formula = lnTemp ~ t, data = blackrock)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32524 -0.12538  0.00779  0.16427  0.23768 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.50038    0.13102  11.452 1.15e-06 ***
## t            0.13240    0.01932   6.854 7.44e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2026 on 9 degrees of freedom
## Multiple R-squared:  0.8392, Adjusted R-squared:  0.8214 
## F-statistic: 46.98 on 1 and 9 DF,  p-value: 7.439e-05

Al analizar este modelo, se observa que su p-value es del 0.0000743 y su \(R^{2}\) es del 82.1% de variabilidad de la temperatura con respecto al tiempo. Ahora como se ha ido realizando con los demas modelos se calcula el AIC para determinar el valor de este modelo.

AIC(modaa)
## [1] -0.1142122

Crecimiento Exponencial \(t^{2}\)

En este modelo se le sumara los datos con el logaritmo la variable \(t^{2}\) y se le aplicara ANOVA.

modi<-lm(lnTemp~t+tT,data=blackrock)
summary(modi)
## 
## Call:
## lm(formula = lnTemp ~ t + tT, data = blackrock)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.34050 -0.12920  0.01817  0.16298  0.22242 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.434247   0.234214   6.124 0.000282 ***
## t            0.162924   0.089706   1.816 0.106871    
## tT          -0.002543   0.007281  -0.349 0.735857    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2133 on 8 degrees of freedom
## Multiple R-squared:  0.8416, Adjusted R-squared:  0.8021 
## F-statistic: 21.26 on 2 and 8 DF,  p-value: 0.0006289

Ahora calculamos el AIC:

AIC(modi)
## [1] 1.71926

Crecimiento Exponencial \(t^{3}\)

En este modelo se le sumara los datos con el logaritmo la variable \(t^{3}\) y se le aplicara ANOVA y se calcula el AIC

modii<-lm(lnTemp~t+tT+tTr,data=blackrock)
summary(modii)
## 
## Call:
## lm(formula = lnTemp ~ t + tT + tTr, data = blackrock)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.15872 -0.03787 -0.01764  0.02072  0.24783 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.153456   0.207289  10.389 1.66e-05 ***
## t           -0.431148   0.143064  -3.014  0.01956 *  
## tT           0.116007   0.027102   4.280  0.00365 ** 
## tTr         -0.006586   0.001489  -4.423  0.00307 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.117 on 7 degrees of freedom
## Multiple R-squared:  0.9583, Adjusted R-squared:  0.9404 
## F-statistic: 53.57 on 3 and 7 DF,  p-value: 3.401e-05
AIC(modii)
## [1] -10.94902

Como sep puede apreciar este modelo cuenta con un p-value de 0.000034 lo cual lo hace muy confiable y su \(R^{2}\) es sobre el 94% de los datos.

AIC para cada uno de los modelos

Ahora se realiza una comparacion de modelos para identificar cual de todos los modelos se adapta mejor a los datos entregados por la estacion Black Rock.

AIC(moda) #Lineal
## [1] 52.35623
AIC(mode) #Cuadratico
## [1] 54.35608
AIC(modo) #Polinomio Tercer Grado
## [1] 39.68001
AIC(modaa) #Exponencial t
## [1] -0.1142122
AIC(modi) #Exponencial t^2
## [1] 1.71926
AIC(modii) #Exponencial t^3
## [1] -10.94902

Como se puede apreciar, el modelo que mejor se adapta a los datos dependiendo su AIC es el modelo de Crecimiento Exponencial de \(t^{3}\), se grafica sobre los datos verdaderos para notar el ajuste de este modelo a los datos verdaderos.

blackrock$Tempmodelo<-exp(predict(modii, newdata = blackrock))
knitr::kable(blackrock)
Year Month Temp t tT tTr lnTemp Tempmodelo
2005 11 6.1 1 1 1 1.808289 6.244676
2005 12 5.2 2 4 8 1.648659 5.487653
2006 1 7.2 3 9 27 1.974081 5.619558
2006 2 5.5 4 16 64 1.704748 6.446063
2006 3 7.6 5 25 125 2.028148 7.961625
2006 4 10.0 6 36 216 2.302585 10.177982
2006 5 13.2 7 49 343 2.580217 12.945309
2006 6 16.4 8 64 512 2.797281 15.746787
2006 7 18.0 9 81 729 2.890372 17.609145
2006 8 16.9 10 100 1000 2.827314 17.401607
2006 9 14.6 11 121 1331 2.681021 14.607746

En la tabla se puede observar ya como los datos del modelo ajustado (Tempmodelo) soy muy confiables para poder realizar una prediccion en el tiempo.

Como resultado al graficar la temperatura del modelo con la de los datos reales vemos que si existe una aproximacion a la de los datos reales. Donde la liena roja representa los datos reales y la negra el modelo ajustado.

.