SERIES DE TIEMPO
Navarijo García Ricardo Daniel
Castillejos Arteaga Luis Felipe
Tasa de Desempleo en México
library(TSA) library(ggplot2) library(ggfortify) library(forecast) library(fpp2) library(forecast) library(fma) library(expsmooth) library(seasonal) library(urca) library(seasonal)
TABLA DE CONTENIDOS
1. Breve referencia a los datos, frecuencia, unidad de medida, fuente, etc
2. Graficar la serie de tiempo, analizar patrones y observaciones atípicas. Apoye su análisis con una descomposición clásica.
3. Si es necesario, utilizar transformación Box-Cox / logaritmos para estabilizar la varianza. Presentar grafica
4. Modelar la serie de tiempo elegida como función de una tendencia, tendencia cuadrática y/o medias estacionales. Presente el diagnóstico del modelo elegido.
5. En caso de estacionalidad de la serie de tiempo, aplicar diferencias estacionales. Presentar grafica
6. Usar prueba Dickey-Fuller para evaluar el orden de integración de la serie. Diferenciar hasta que la serie sea estacionaria.
7. Usar herramientas ACF,PACF,EACF y/o criterios de Akaike/Bayes para construir propuestas de modelos.
8. Como parte del diagnóstico del modelo, analizar los residuos y aplicar la prueba Ljung-Box.
9. Usar la función auto.arima() y compare sus resultados con el inciso anterior.
10. Presente la ecuación final y describa.
11. Realizar el pronóstico ARIMA para dos años.
12. Utilizando métodos de pronósticos simples y/o suavizamiento exponencial generar un pronóstico para dos años. Elegir el método que presente la raíz del error medio al cuadrado más pequeño.
1. Breve referencia a los datos, frecuencia, unidad de medida, fuente, etc.
La tasa de desempleo, también conocida como tasa de paro, mide el nivel de desocupación en relación a la población activa. En otras palabras, es la parte de la población que estando en edad, condiciones y disposición de trabajar -población activa- no tiene puesto de trabajo.
La tasa de desempleo es muy útil para conocer las personas que no están trabajando. Su fórmula de cálculo es la población de 16 años y más que no está trabajando y busca trabajo, dividido entre la población económicamente activa de 16 años y más, esto es, ocupados más desocupados. Se calcula de la siguiente manera: tasa de desempleo=(No. de desempleados/Poblacion activa)*100 datos sacdos de http://www.fao.org
2. Graficar la serie de tiempo, analizar patrones y observaciones atípicas. Apoye su análisis con una descomposición clásica.
base<-read.csv(file.choose()) tdd<-ts(base$tdd, start= c(1987,1),frequency= 12)
library(ggplot2)
library(ggfortify)
autoplot(tdd)



aquí podemos apreciar como tenemos una deserie donde aument eldesempleo en los 90’s por el efecto tequila, donde tuvimos una depresicación de la moneda mexicana, de igual manera podemos observar como baja poco a poco hasta el año 2000 donde tenemos un incremento hasta llegar a otra crisis en el años 2008-2009 pero no tan fuerte como en los 90’s
fit <- decompose(tdd, type=‘multiplicative’)

Para el caso clásico obtenemos los componentes separados de nuestra serie, en relacion a la estacionalidad, tendencia y residuos.
fit2 <- seas(tdd, x11=“”)

Se realizo una gráfica que compara el comportamiento de nuestros datos con el de un ajuste estacional y observamos un comportamiento más preciso en el componente tendencial, además de que la estacionalidad refleja cambios que van acortando los extremos verticales con una pequeña alza a mitad del periodo, que después regresa a su actividad inicial.
4. Modelar la serie de tiempo elegida como función de una tendencia, tendencia cuadrática y/o medias estacionales. Presente el diagnóstico del modelo elegido.
modelo1 <- lm(tdd~time(tdd))
summary(modelo1)
Call:
lm(formula = tdd ~ time(tdd))
Residuals:
Min 1Q Median 3Q Max
-1.6444 -0.6376 -0.1710 0.5324 4.0430
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -79.562984 10.827546 -7.348 1.28e-12 ***
time(tdd) 0.041652 0.005407 7.704 1.20e-13 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.9445 on 373 degrees of freedom
Multiple R-squared: 0.1373, Adjusted R-squared: 0.135
F-statistic: 59.35 on 1 and 373 DF, p-value: 1.205e-13

autoplot(modelo1, which = 1:6, ncol = 2, label.size = 3)
package <U+393C><U+3E31>bindrcpp<U+393C><U+3E32> was built under R version 3.4.4

shapiro.test(rstudent(modelo1))
Shapiro-Wilk normality test
data: rstudent(modelo1)
W = 0.93097, p-value = 3.725e-12

mes. <- season(tdd) modelo2 <- lm(tdd~mes.)
summary(modelo2)
Call:
lm(formula = tdd ~ mes.)
Residuals:
Min 1Q Median 3Q Max
-1.7621 -0.7700 -0.2213 0.7690 3.6787
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.827749 0.182065 21.024 <2e-16 ***
mes.February 0.034362 0.257479 0.133 0.894
mes.March -0.005961 0.257479 -0.023 0.982
mes.April 0.050283 0.259547 0.194 0.846
mes.May 0.050119 0.259547 0.193 0.847
mes.June 0.046411 0.259547 0.179 0.858
mes.July 0.062057 0.259547 0.239 0.811
mes.August 0.093549 0.259547 0.360 0.719
mes.September 0.002964 0.259547 0.011 0.991
mes.October -0.015663 0.259547 -0.060 0.952
mes.November 0.003626 0.259547 0.014 0.989
mes.December -0.071200 0.259547 -0.274 0.784
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.03 on 363 degrees of freedom
Multiple R-squared: 0.001701, Adjusted R-squared: -0.02855
F-statistic: 0.05622 on 11 and 363 DF, p-value: 1


shapiro.test(rstudent(modelo2))
Shapiro-Wilk normality test
data: rstudent(modelo2)
W = 0.95154, p-value = 9.308e-10

modelo3 <- lm(tdd~mes. -1)
summary(modelo3)
Call:
lm(formula = tdd ~ mes. - 1)
Residuals:
Min 1Q Median 3Q Max
-1.7621 -0.7700 -0.2213 0.7690 3.6787
Coefficients:
Estimate Std. Error t value Pr(>|t|)
mes.January 3.8277 0.1821 21.02 <2e-16 ***
mes.February 3.8621 0.1821 21.21 <2e-16 ***
mes.March 3.8218 0.1821 20.99 <2e-16 ***
mes.April 3.8780 0.1850 20.96 <2e-16 ***
mes.May 3.8779 0.1850 20.96 <2e-16 ***
mes.June 3.8742 0.1850 20.94 <2e-16 ***
mes.July 3.8898 0.1850 21.03 <2e-16 ***
mes.August 3.9213 0.1850 21.20 <2e-16 ***
mes.September 3.8307 0.1850 20.71 <2e-16 ***
mes.October 3.8121 0.1850 20.61 <2e-16 ***
mes.November 3.8314 0.1850 20.71 <2e-16 ***
mes.December 3.7565 0.1850 20.31 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.03 on 363 degrees of freedom
Multiple R-squared: 0.9352, Adjusted R-squared: 0.933
F-statistic: 436.4 on 12 and 363 DF, p-value: < 2.2e-16


shapiro.test(rstudent(modelo3))
Shapiro-Wilk normality test
data: rstudent(modelo3)
W = 0.95154, p-value = 9.308e-10

5. En caso de estacionalidad de la serie de tiempo, aplicar diferencias estacionales. Presentar grafica
tdd.d<-autoplot(diff(tdd))

6. Usar prueba Dickey-Fuller para evaluar el orden de integración de la serie. Diferenciar hasta que la serie sea estacionaria.
Diferenciar hasta que la serie sea estacionaria. Ho: Existe raíz unitaria Ha: No existe raíz unitaria
adf.test(tdd)
Augmented Dickey-Fuller Test
data: tdd
Dickey-Fuller = -2.5049, Lag order = 7, p-value = 0.3639
alternative hypothesis: stationary
adf.test(tdd.d)
p-value smaller than printed p-value
Augmented Dickey-Fuller Test
data: tdd.d
Dickey-Fuller = -6.0305, Lag order = 7, p-value = 0.01
alternative hypothesis: stationary
7. Usar herramientas ACF,PACF,EACF y/o criterios de Akaike/Bayes para construir propuestas de modelos.


eacf(tdd.d)
AR/MA
0 1 2 3 4 5 6 7 8 9 10 11 12 13
0 x o o x o x x o o o o o o o
1 o x o x o o o o o o o o o o
2 x o x o o o o o o o o o o o
3 x o x o o o o o o o o o o o
4 x x x o o o x o o o o o o o
5 x x x x x x o o o o o o o o
6 x x o o o x o o o o o o o o
7 o x o o o x o o o o o o o o

8. Como parte del diagnóstico del modelo, analizar los residuos y aplicar la prueba Ljung-Box.
fit1<-Arima(tdd.d, order=c(1,1,0), seasonal = c(1,1,0))
fit1
Series: tdd.d
ARIMA(1,1,0)(1,1,0)[12]
Coefficients:
ar1 sar1
-0.6851 -0.5895
s.e. 0.0388 0.0419
sigma^2 estimated as 0.1467: log likelihood=-167.61
AIC=341.23 AICc=341.29 BIC=352.89
checkresiduals(fit1)
Ljung-Box test
data: Residuals from ARIMA(1,1,0)(1,1,0)[12]
Q* = 197.66, df = 22, p-value < 2.2e-16
Model df: 2. Total lags used: 24

fit2<-Arima(tdd.d, order=c(2,1,0), seasonal = c(1,1,0))
fit2
Series: tdd.d
ARIMA(2,1,0)(1,1,0)[12]
Coefficients:
ar1 ar2 sar1
-0.9509 -0.3918 -0.5877
s.e. 0.0488 0.0485 0.0423
sigma^2 estimated as 0.1245: log likelihood=-137.73
AIC=283.46 AICc=283.57 BIC=299.01
checkresiduals(fit2)
Ljung-Box test
data: Residuals from ARIMA(2,1,0)(1,1,0)[12]
Q* = 153.02, df = 21, p-value < 2.2e-16
Model df: 3. Total lags used: 24

fit3<-auto.arima(tdd.d)
fit3
Series: tdd.d
ARIMA(3,0,5)(0,0,2)[12] with zero mean
Coefficients:
ar1 ar2 ar3 ma1 ma2 ma3 ma4 ma5 sma1 sma2
-1.4183 0.1019 0.5373 1.1735 -0.3911 -0.3383 0.3859 0.1442 -0.1353 0.1102
s.e. 0.2505 0.4935 0.2457 0.2563 0.4246 0.1610 0.0761 0.0689 0.0546 0.0555
sigma^2 estimated as 0.05748: log likelihood=7.77
AIC=6.46 AICc=7.19 BIC=49.63
checkresiduals(fit3)
Ljung-Box test
data: Residuals from ARIMA(3,0,5)(0,0,2)[12] with zero mean
Q* = 13.83, df = 14, p-value = 0.4625
Model df: 10. Total lags used: 24

9. Usar la función auto.arima() y compare sus resultados con el inciso anterior.
fit4<-auto.arima(tdd.d, stepwise = FALSE, approximation = FALSE)
fit4
Series: tdd.d
ARIMA(1,0,2)(1,0,0)[12] with zero mean
Coefficients:
ar1 ma1 ma2 sar1
0.7332 -1.0379 0.3424 -0.1377
s.e. 0.1178 0.1166 0.0512 0.0521
sigma^2 estimated as 0.05974: log likelihood=-1.96
AIC=13.93 AICc=14.09 BIC=33.55
checkresiduals(fit4)
Ljung-Box test
data: Residuals from ARIMA(1,0,2)(1,0,0)[12] with zero mean
Q* = 23.12, df = 20, p-value = 0.2829
Model df: 4. Total lags used: 24

10. Presente la ecuación final y describa.
fit5<-Arima(tdd.d, order=c(3,0,5), seasonal = c(0,0,2))
fit5
Series: tdd.d
ARIMA(3,0,5)(0,0,2)[12] with non-zero mean
Coefficients:
ar1 ar2 ar3 ma1 ma2 ma3 ma4 ma5 sma1 sma2
-1.4143 0.1106 0.542 1.1685 -0.3997 -0.3421 0.3842 0.1426 -0.1356 0.1089
s.e. 0.2425 0.4779 0.238 0.2483 0.4105 0.1565 0.0762 0.0686 0.0545 0.0555
mean
-0.0050
s.e. 0.0131
sigma^2 estimated as 0.05762: log likelihood=7.84
AIC=8.32 AICc=9.18 BIC=55.41
checkresiduals(fit5)
Ljung-Box test
data: Residuals from ARIMA(3,0,5)(0,0,2)[12] with non-zero mean
Q* = 13.806, df = 13, p-value = 0.3876
Model df: 11. Total lags used: 24

Se ecoge este modelo porque es donde nuestro ACF no se salen y los residuos no se salen mucho a comparación de otros
11. Realizar el pronóstico ARIMA para dos años.
getrmse<-function(x,h,…) { train.end<-time(x)[length(x)-h] test.start<-time(x)[length(x)-h+1] train<-window(x,end=train.end) test<-window(x,start=test.start) fit<-Arima(train,…) fc<-forecast(fit,h=h) return(accuracy(fc,test)[2,“RMSE”]) }
getrmse(tdd,h=24,order=c(1,0,2),seasonal=c(1,0,0))
[1] 0.4559535
getrmse(tdd,h=24,order=c(2,1,1),seasonal=c(1,1,0))
[1] 0.617638
getrmse(tdd,h=24,order=c(2,1,0),seasonal=c(1,1,0))
[1] 0.4229213
getrmse(tdd,h=24,order=c(2,1,0),seasonal=c(1,1,2))
[1] 0.4072446
getrmse(tdd,h=24,order=c(2,1,1),seasonal=c(1,1,2))
[1] 0.2503558
getrmse(tdd,h=24,order=c(2,1,1),seasonal=c(1,1,1))
[1] 0.2523106
getrmse(tdd,h=24,order=c(2,1,1),seasonal=c(0,1,1))
[1] 0.2550056
getrmse(tdd,h=24,order=c(3,0,4),seasonal=c(1,1,0))
[1] 0.3094996
getrmse(tdd,h=24,order=c(3,0,4),seasonal=c(1,1,1))
[1] 0.3900453
getrmse(tdd,h=24,order=c(3,0,4),seasonal=c(0,1,2))
[1] 0.4088291
getrmse(tdd,h=24,order=c(3,1,4),seasonal=c(1,0,0))
[1] 0.3602454
getrmse(tdd,h=24,order=c(3,0,5),seasonal=c(0,0,2))
[1] 0.2359293
getrmse(tdd,h=24,order=c(3,1,1),seasonal=c(0,0,2))
[1] 0.3267824
fit6<-Arima(tdd, order=c(2,1,1),seasonal=c(1,1,2))
fit6
Series: tdd
ARIMA(2,1,1)(1,1,2)[12]
Coefficients:
ar1 ar2 ma1 sar1 sma1 sma2
0.5434 0.3153 -0.8153 -0.2883 -0.8138 -0.1276
s.e. 0.0999 0.0517 0.0927 0.3488 0.3562 0.3553
sigma^2 estimated as 0.06294: log likelihood=-25.08
AIC=64.16 AICc=64.48 BIC=91.4
autoplot(forecast(fit6,h=12,type='b',xlab='Time',ylab='Color Property'))
The non-existent type arguments will be ignored.The non-existent xlab arguments will be ignored.The non-existent ylab arguments will be ignored.

12. Utilizando métodos de pronósticos simples y/o suavizamiento exponencial generar un pronóstico para dos años. Elegir el método que presente la raíz del error medio al cuadrado más pequeño.
Para poder realizar el pronostico de nuestra serie, primeramente se realizo un recorte de los ultimos dos años para despues pronosticar nuestra serie mediante los metodos mean(media), naive y naive estacional.
tdd.c <- window(tdd,start=c(1987,4),end=c(2015,12))


http://rpubs.com/Richie1995/ http://rpubs.com/Richie1995/397935
