Librerias para series de tiempo
library(lubridate)
Attaching package: ‘lubridate’
The following objects are masked from ‘package:base’:
date, intersect, setdiff, union
library(tseries)
Registered S3 method overwritten by 'quantmod':
method from
as.zoo.data.frame zoo
‘tseries’ version: 0.10-49
‘tseries’ is a package for time series analysis and
computational finance.
See ‘library(help="tseries")’ for details.
library(forecast)
library(ggplot2)
library(zoo)
Attaching package: ‘zoo’
The following objects are masked from ‘package:base’:
as.Date, as.Date.numeric
library(chron)
Attaching package: ‘chron’
The following object is masked from ‘package:tseries’:
is.weekend
The following objects are masked from ‘package:lubridate’:
days, hours, minutes, seconds, years
library(dygraphs)
Registered S3 method overwritten by 'htmlwidgets':
method from
print.htmlwidget tools:rstudio
library(readxl)
library(highcharter)
Registered S3 method overwritten by 'data.table':
method from
print.data.table
Fechas
Dependiendo el valor de entrada tenemos que usar alguna de las tres, el valor de salida siempre sera: YYYY-MM-DD
ymd(19931123)
[1] "1993-11-23"
dmy(23111993)
[1] "1993-11-23"
mdy(11231993)
[1] "1993-11-23"
Fechas y tiempo
mytimepoint = ymd_hm('1993-11-23 11:23', tz = "America/Argentina/Buenos_Aires")
class(mytimepoint)
[1] "POSIXct" "POSIXt"
Para extraer los componentes:
minute(mytimepoint)
[1] 23
day(mytimepoint)
[1] 23
hour(mytimepoint)
[1] 11
year(mytimepoint)
[1] 1993
month(mytimepoint)
[1] 11
wday(mytimepoint, label = T, abbr = F)
[1] martes
Levels: domingo < lunes < martes < miércoles < jueves < viernes < sábado
Calculando intervalo entre dos momentos temporales:
time1 = ymd_hm('1993-11-23 11:23', tz = "America/Argentina/Buenos_Aires")
time2 = ymd_hm('1995-12-23 11:23', tz = "America/Argentina/Buenos_Aires")
myinterval = interval(time1, time2)
class(myinterval)
[1] "Interval"
attr(,"package")
[1] "lubridate"
Outliers y NA
mydata = read.csv('Rmissing.csv')
myts = ts(mydata$mydata)
plot(myts)

Podemos tratar los datos faltantes:
Nos llena los NA con la observación anterior
myts.NAlocf = na.locf(myts)
Rellena con el valor que queremos:
# myts.NAfil = fill(myts, 33)
Detección de outliers:
myts1 = tsoutliers(myts)
myts1
$index
[1] 45 98 172 211
$replacements
[1] 28.41242 39.78616 33.59838 37.96883
Limpia los NA y Outliers:
Se reemplazan los faltantes y se nivelan los outliers
#
# mytsclean = tsclean(myts)
#
# plot(mytsclean)
plot(tsclean(myts))

Datos de Variables Financieras:
Se importan datos de series temporales de los precios de Starbucks y Microsoft
Especificamos la fecha inicial, final y la frecuencia.
La seriede tiempo sbux inicia en: 1993 3 y finaliza en: 2008 3 con una frecuencia de: 12
La seriede tiempo msft inicia en: 1993 3 y finaliza en: 2008 3 con una frecuencia de: 12
Subconjunto de una Serie Temporal:
subconjunto = window(sbux.ts, start = c(1993,3), end = c (1993,8))
subconjunto
Mar Apr May Jun Jul Aug
1993 1.13 1.15 1.43 1.46 1.41 1.44
Combinar Series de Tiempo:
combinadas_ts = cbind(sbux.ts, msft.ts)
Plot de Starbucks:

Plot de las dos Series:

Utilizando ZOO
Creamos una fecha con secuencias:
td = seq(as.Date('1993/3/1'),as.Date('2008/3/1'), 'months')
Otra alternativa es agarrar la fecha del data frame y convertirla:
td2 = as.Date(sbux$Date, format = '%m/%d/%Y')
Juntamos ambas Series:
# Combinamos el indice de tiempo a las dos series
sbux.z = zoo(x = sbux$Adj.Close, order.by = td)
msft.z = zoo(x = msft$Adj.Close, order.by = td)
# Extraer indices y precios
indices_sbux.z = index(sbux.z )
valores_sbux.z = coredata(sbux.z )
# Combinamos las dos series
combinadas_zoom = cbind(sbux.z, msft.z)
Importar datos directamente desde ZOO
# Es identico al creado anteriorimente
sbuxzoo = read.zoo('sbuxPrices.csv',
format = '%m/%d/%Y',
sep = ",",
header = T)
Importar datos directamente de Yahoo Finance:
time series ends 2022-01-05
time series ends 2022-01-05
Grafico en conjunto:

Libreria dygraphs
Esta libreria contiene visualizaciones interactivas:
Ruido Blanco
Es un tipo especial de serie temporal, donde los datos no siguen ningún patrón.
Para que una serie sea ruido blanco tiene que tener una media constante, una varianza constante y no tener autocorrelacion en ningún periodo.
La autocorrelacion mide cuan correlacionada es una serie con versiones anteriores de si misma.
La falta de autocorrelacion es que no hay una relación clara entre valores pasados y valores presentes
\[p=corr(X_t,X_t-1) \]

Caminata Aleatoria
Es un tipo especial de serie de tiempo en donde los valores tienden a persistir en el tiempo y las diferencias entre periodos son simplemente ruido blanco.
Cualquier caminata aleatoria: Su precio es igual al precio anterior mas un ruido blanco
Las mejores estimaciones para los precios de hoy serán los precios de ayer

Estacionariedad
Prueba Dickey Fuller
La prueba nos sirve para testear si hay o no autocorrelacion en una serie temporal.
Esta propiedad hace referencia a cuando una serie es estable a lo largo del tiempo, es decir, cuando la media y la varianza son constantes y ademas no presenta tendencias
Un ejemplo de una serie débilmente estacionaria es una serie de ruido blanco, ya que la autocorrelacion entre dos puntos siempre es cero
Serie Estacionaria
Simulamos datos normalmente distribuidos de 1000 observaciones y aleatorios, el dickey fuller test lo vamos a ejecutar para ver si hay significancia o no. El p valor es menor a un nivel de significancia del 0.05, por lo tanto, la hipotesis nula es rechazada, por lo tanto la serie sera estacionaria.
Augmented Dickey-Fuller Test
data: x
Dickey-Fuller = -11.557, Lag order = 9, p-value = 0.01
alternative hypothesis: stationary

Serie No Estacionaria
Augmented Dickey-Fuller Test
data: y
Dickey-Fuller = -2.6997, Lag order = 9, p-value = 0.2821
alternative hypothesis: stationary

Descomponer Serie
Warning in adf.test(nottem) : p-value smaller than printed p-value
Augmented Dickey-Fuller Test
data: nottem
Dickey-Fuller = -12.998, Lag order = 6, p-value = 0.01
alternative hypothesis: stationary

Autocorrelacion
La correlación nos dice la similitud con respecto a las series temporales cambian sus valores. Si estamos con una sola serie temporal la correlación se calcula con valores pasados de la misma serie, es decir, la correlación entre una secuencia y si misma. Mide el nivel de semejanza entre una secuencia de varios periodos atrás y los datos reales, esta secuencia del pasado se llama retraso o rezago.
La función de autocorrelacion ACP Function nos va a proporcionar la autocorrelacion para cualquier retraso que consideremos.
Autocorrelacion Parcial
Son efectos de segunda mano, donde los valores presentes son afectados por valores pasados y estos mismos también son afectados por valores pasados
Autocorrelacion para ruido blanco


Autocorrelacion para ruido blanco.(Serie Estacionaria)
acf(x, plot = T)

Estacionalidad
Sugiere que ciertas tendencias aparecerán de forma cíclica, por ejemplo, las temperaturas suben y bajan a lo largo del tiempo. La series se pueden descomponer bajo efecto tendencia donde podemos quitar un patrón sostenido en los datos, la estacional los efectos cíclicos y el residual el error entre los datos reales y el modelo que estamos ejecutando.
La descomposición clásica puede ser aditiva o multiplicativa, en la aditiva podemos suponer que en cualquier momento del tiempo el valor observado es la suma de la tendencia, el objeto estacional y el efecto residual para ese periodo.
La descomposición multiplicativa nos dice que la serie original es un producto de los tres efectos anteriories.
Suavizado con SMA
Utilizaremos un Data Set y crearemos una variable de SMA de orden 3 y de orden 9.



Método Exponencial
etsmodel = ets(nottem)
plot(nottem, lwd = 3)
lines(etsmodel$fitted, col = "red")

# Forecast de 12 meses
# Intervalo de predicción: nivel de confianza 95%
plot(forecast(etsmodel, h = 12, level = 95))

# Holt Winters multiplicativo
etsmodmult = ets(nottem, model ="MMM") # MMM todo multiplicativo #error, tendencia, estacionalidad. Defecto ZZZ
# Comparacion serie original con el fitted luego de aplicar el modelo multiplicativo
plot(nottem, lwd = 3)
lines(etsmodmult$fitted, col = "red")

etsmodmultMAM = ets(nottem, model ="MAM")
plot(nottem, lwd = 3)
lines(etsmodmultMAM$fitted, col = "red")

compare_models = as.data.frame(nottem)
compare_models$fitted_MMM = etsmodmult$fitted
compare_models$fitted_MAM = etsmodmultMAM$fitted
# Error cuadrático medio
cat('El error cuadratico medio para tendencia multiplicativa es: ', sum((compare_models$x - compare_models$fitted_MMM) / nrow(compare_models)), 'y para tendencia aditiva: ', sum((compare_models$x - compare_models$fitted_MAM) / nrow(compare_models)))
El error cuadratico medio para tendencia multiplicativa es: 0.163262 y para tendencia aditiva: 0.02354155
Modelos Predictivos

¿Como seleccionar el mejor modelo?
1) Escoger el modelo
2) Dividir los datos de entrenamiento y de prueba
3) Ajustar el modelo a los datos de entrenamiento
4) Evaluar el modelo en los datos de prueba
5) Re-Ajustar el modelo con todos los datos
6) Predecir los datos futuros
Criterios de selección del modelo:
AIC = AKaike: Evalúa la colección de modelos que tenemos y va a estimar la calidad de cada modelo en relación con los modelos restantes, el criterio va a penalizar en base al numero de parámetros que tiene, es decir, en base a su complejidad.
BIC = Baysesian: Tiene criterios Bayesianos. Utilizar los dos criterios es lo recomendado.
Conceptos Claves:
Overfitting: Sobreajuste del modelo. Puede no funcionar de forma correcta ya que esta sobre ajustado el modelo
Los residuos del modelo deben parecerse a ruido blanco, es decir, estacionarios
Modelo Autorregresivo
La autocorrelacion nos va a permitir desarrollar este modelo que se basa en tener en cuenta valores pasados. Es un modelo lineal donde los valores del periodo actual son la suma de resultados pasados multiplicados por un coeficiente mas un error.
El coeficiente siempre tiene que estar entre - 1 y 1. No puede ser superior en valor absoluto
El residuo van a ser diferencias impredecibles, si hay un patrón se va a identificar en las variables del modelo, el residuo es la diferencia entre el valor real y el estimado
Modelo AR(1)
$$
\[\begin{aligned}
Y_i &= c + \phi_i Y_{i-1} + \epsilon_i
\end{aligned}\]
$$
Modelo AR(2)
$$
\[\begin{aligned}
Y_i &= c + \phi_i Y_{i-1} + \phi_i Y_{i-2} + \epsilon_i
\end{aligned}\]
$$ Modelo AR(n)
$$
\[\begin{aligned}
Y_i &= c + \phi_i Y_{i-1} + \phi_2 Y_{i-2} + ..\phi_n Y_{i-n} + \epsilon_i
\end{aligned}\]
$$ Estos modelos de muchos procesos AR pueden contener ruido. Es importante primero verificar de forma teórica para no hacerlo mas complejo.
Las funciones de autocorrelacion y autocorrelacion parcial nos van a decir cuantos rezagos podemos incluir en el modelo.
ARMA
Estos modelos combinan los anteriores vistos. Toma en cuenta los valores pasados y los errores.
$$
\[\begin{aligned}
Y_i &= c + \phi_i Y_{i-1} + \alpha_i \epsilon_{i-1} + \epsilon_i
\end{aligned}\]
$$ Donde el coeficiente AR es:
$$
\[\begin{aligned}
\phi_i
\end{aligned}\]
$$ Y el coeficiente MA es:
\[
\begin{aligned}
\alpha_i
\end{aligned}
\]
ARIMA
Cuando se trata de series no estacionarias utilizaremos el modelo autorregresivo integrado de medias moviles. La parte integrada del modelo explica el numero de diferencias no estacionales que debemos examinar para establecer estacionariedad.
ARIMA (p,d,q)
El modelo va a tener tres ordenes, p,d y q. Donde p = Componente AR, d = Orden de Integración y 1 = Componente MA.
Donde un ARIMA(p,0,q) = ARMA(p,q).
Numero de linces capturados anualmente en EEUU

En este gráfico obtenemos las funciones de autocorrelacion y el mismo gráfico anterior.
Observamos cierto comportamiento cíclico, no parece haber estacionalidad.
En la FACP podemos ver que el primer y segundo retraso son significativos.
Vemos informacion del data set:
tail(lynx)
Time Series:
Start = 1929
End = 1934
Frequency = 1
[1] 485 662 1000 1590 2657 3396

Probamos un modelo AR(2)
modelarima = arima(lynx, order = c(2,0,0))
modelarima
Call:
arima(x = lynx, order = c(2, 0, 0))
Coefficients:
ar1 ar2 intercept
1.1474 -0.5997 1545.4458
s.e. 0.0742 0.0740 181.6736
sigma^2 estimated as 768159: log likelihood = -935.02, aic = 1878.03
Observamos los residuos del modelo:

Ejecutamos un MA(2):
Call:
arima(x = lynx, order = c(0, 0, 2))
Coefficients:
ma1 ma2 intercept
1.1407 0.4697 1545.3670
s.e. 0.0776 0.0721 224.5215
sigma^2 estimated as 855092: log likelihood = -941.03, aic = 1890.06

Hacemos un test de p valor para ver si la serie es estacionaria al 5 % de nivel de significancia:
La serie es estacionaria con un p valor de: 0.01
Probamos un modelo AR(4) ya que en la FACP se puede ver un rezago 4 significativo:
Podemos ver residuos dentro de la zona de no significación, que siguen aproximadamente una distribución normal y la serie temporal de los residuos vemos que es estacionaria para el modelo de orden 4.
Series: lynx
ARIMA(4,0,0) with non-zero mean
Coefficients:
ar1 ar2 ar3 ar4 mean
1.1246 -0.7174 0.2634 -0.2543 1547.3859
s.e. 0.0903 0.1367 0.1361 0.0897 136.8501
sigma^2 estimated as 748457: log likelihood=-931.11
AIC=1874.22 AICc=1875.01 BIC=1890.64
Ljung-Box test
data: Residuals from ARIMA(4,0,0) with non-zero mean
Q* = 13.201, df = 5, p-value = 0.02157
Model df: 5. Total lags used: 10

Haciendo Pronósticos:
El area oscura es el intervalo de confianza

Valores estimados:
arimaforecast$mean
Time Series:
Start = 1935
End = 1949
Frequency = 1
[1] 2980.7782 2114.6447 1361.7211 839.0137 668.7873 874.3079 1281.3753 1679.8363 1933.3503 1987.5494 1868.0533 1660.2155 1462.0024
[14] 1342.9317 1326.8693
Volatilidad
Hay modelos especiales que miden la volatilidad, es decir, la magnitud de los residuos, cuan volátiles sean las predicciones
Los modelos ARCH (Autorregresivos. con heterocedasticidad condicional) son los mas comunes para estudiar series temporales con volatilidad. A diferencia de la familia ARIMA este modelo tiene varias ecuaciones, una para la media y otra para la varianza.
La combinaron entre la heterocedasticidad y la condicional nos dice que la varianza dependerá de otros valores, es decir, de valores autorregresivos. Usaremos valores pasados para medir la varianza del periodo actual.
Predicciones


ARIMA(2,0,2)(1,1,1)[12] with drift : Inf
ARIMA(0,0,0)(0,1,0)[12] with drift : 33.18552
ARIMA(1,0,0)(1,1,0)[12] with drift : 21.24655
ARIMA(0,0,1)(0,1,1)[12] with drift : 4.650892
ARIMA(0,0,0)(0,1,0)[12] : 31.10897
ARIMA(0,0,1)(0,1,0)[12] with drift : 30.61776
ARIMA(0,0,1)(1,1,1)[12] with drift : Inf
ARIMA(0,0,1)(0,1,2)[12] with drift : Inf
ARIMA(0,0,1)(1,1,0)[12] with drift : 22.19067
ARIMA(0,0,1)(1,1,2)[12] with drift : Inf
ARIMA(0,0,0)(0,1,1)[12] with drift : 3.449011
ARIMA(0,0,0)(1,1,1)[12] with drift : Inf
ARIMA(0,0,0)(0,1,2)[12] with drift : Inf
ARIMA(0,0,0)(1,1,0)[12] with drift : 21.62052
ARIMA(0,0,0)(1,1,2)[12] with drift : Inf
ARIMA(1,0,0)(0,1,1)[12] with drift : 4.220857
ARIMA(1,0,1)(0,1,1)[12] with drift : -0.587426
ARIMA(1,0,1)(0,1,0)[12] with drift : 23.21427
ARIMA(1,0,1)(1,1,1)[12] with drift : Inf
ARIMA(1,0,1)(0,1,2)[12] with drift : Inf
ARIMA(1,0,1)(1,1,0)[12] with drift : 15.62801
ARIMA(1,0,1)(1,1,2)[12] with drift : Inf
ARIMA(2,0,1)(0,1,1)[12] with drift : -1.704778
ARIMA(2,0,1)(0,1,0)[12] with drift : 23.66859
ARIMA(2,0,1)(1,1,1)[12] with drift : Inf
ARIMA(2,0,1)(0,1,2)[12] with drift : Inf
ARIMA(2,0,1)(1,1,0)[12] with drift : 14.07389
ARIMA(2,0,1)(1,1,2)[12] with drift : Inf
ARIMA(2,0,0)(0,1,1)[12] with drift : -0.02401758
ARIMA(3,0,1)(0,1,1)[12] with drift : 0.151561
ARIMA(2,0,2)(0,1,1)[12] with drift : -2.250542
ARIMA(2,0,2)(0,1,0)[12] with drift : Inf
ARIMA(2,0,2)(0,1,2)[12] with drift : Inf
ARIMA(2,0,2)(1,1,0)[12] with drift : 14.78926
ARIMA(2,0,2)(1,1,2)[12] with drift : Inf
ARIMA(1,0,2)(0,1,1)[12] with drift : -2.392319
ARIMA(1,0,2)(0,1,0)[12] with drift : 23.28728
ARIMA(1,0,2)(1,1,1)[12] with drift : Inf
ARIMA(1,0,2)(0,1,2)[12] with drift : Inf
ARIMA(1,0,2)(1,1,0)[12] with drift : 13.22757
ARIMA(1,0,2)(1,1,2)[12] with drift : Inf
ARIMA(0,0,2)(0,1,1)[12] with drift : 2.159611
ARIMA(1,0,3)(0,1,1)[12] with drift : -0.5346
ARIMA(0,0,3)(0,1,1)[12] with drift : 2.35328
ARIMA(2,0,3)(0,1,1)[12] with drift : -0.1783977
ARIMA(1,0,2)(0,1,1)[12] : -4.59822
ARIMA(1,0,2)(0,1,0)[12] : 21.08953
ARIMA(1,0,2)(1,1,1)[12] : Inf
ARIMA(1,0,2)(0,1,2)[12] : Inf
ARIMA(1,0,2)(1,1,0)[12] : 11.00814
ARIMA(1,0,2)(1,1,2)[12] : Inf
ARIMA(0,0,2)(0,1,1)[12] : 0.002026895
ARIMA(1,0,1)(0,1,1)[12] : -2.719768
ARIMA(2,0,2)(0,1,1)[12] : -4.515401
ARIMA(1,0,3)(0,1,1)[12] : -2.778658
ARIMA(0,0,1)(0,1,1)[12] : 2.592817
ARIMA(0,0,3)(0,1,1)[12] : 0.1663591
ARIMA(2,0,1)(0,1,1)[12] : -3.911039
ARIMA(2,0,3)(0,1,1)[12] : Inf
Best model: ARIMA(1,0,2)(0,1,1)[12]
Estimaremos 3 años:
Prediccion de Linces:
La serie es estacionaria con un p valor de: 0.01
Descomposición de la serie:
Podemos observar, en la serie estacionaria, en la función de autocorrelacion parcial tenemos el primer y segundo rezago muy significativos, luego el cuarto también..

Modelo Auto ARIMA:
myarima = auto.arima(lynx, trace = T,
stepwise = F,
approximation = T)
Fitting models using approximations to speed things up...
ARIMA(0,0,0) with zero mean : 2080.721
ARIMA(0,0,0) with non-zero mean : 2006.724
ARIMA(0,0,1) with zero mean : 1971.633
ARIMA(0,0,1) with non-zero mean : 1918.454
ARIMA(0,0,2) with zero mean : 1923.633
ARIMA(0,0,2) with non-zero mean : 1890.07
ARIMA(0,0,3) with zero mean : 1911.329
ARIMA(0,0,3) with non-zero mean : 1888.462
ARIMA(0,0,4) with zero mean : 1904.649
ARIMA(0,0,4) with non-zero mean : 1888.861
ARIMA(0,0,5) with zero mean : 1906.728
ARIMA(0,0,5) with non-zero mean : 1885.904
ARIMA(1,0,0) with zero mean : 1934.293
ARIMA(1,0,0) with non-zero mean : 1926.793
ARIMA(1,0,1) with zero mean : 1902.375
ARIMA(1,0,1) with non-zero mean : 1890.554
ARIMA(1,0,2) with zero mean : 1902.539
ARIMA(1,0,2) with non-zero mean : 1888.371
ARIMA(1,0,3) with zero mean : 1904.57
ARIMA(1,0,3) with non-zero mean : 1889.878
ARIMA(1,0,4) with zero mean : 1906.532
ARIMA(1,0,4) with non-zero mean : 1888.773
ARIMA(2,0,0) with zero mean : 1906.818
ARIMA(2,0,0) with non-zero mean : 1878.042
ARIMA(2,0,1) with zero mean : 1903.406
ARIMA(2,0,1) with non-zero mean : 1879.57
ARIMA(2,0,2) with zero mean : 1905.591
ARIMA(2,0,2) with non-zero mean : 1876.453
ARIMA(2,0,3) with zero mean : Inf
ARIMA(2,0,3) with non-zero mean : Inf
ARIMA(3,0,0) with zero mean : 1904.652
ARIMA(3,0,0) with non-zero mean : 1881.03
ARIMA(3,0,1) with zero mean : 1906.551
ARIMA(3,0,1) with non-zero mean : Inf
ARIMA(3,0,2) with zero mean : Inf
ARIMA(3,0,2) with non-zero mean : 1879.019
ARIMA(4,0,0) with zero mean : 1907.789
ARIMA(4,0,0) with non-zero mean : 1876.139
ARIMA(4,0,1) with zero mean : Inf
ARIMA(4,0,1) with non-zero mean : 1877.57
ARIMA(5,0,0) with zero mean : 1906.868
ARIMA(5,0,0) with non-zero mean : 1878.465
Now re-fitting the best model(s) without approximations...
Best model: ARIMA(4,0,0) with non-zero mean
Modelo Auto ARIMA con AR(8):
myarima = auto.arima(lynx, trace = T,
stepwise = F,
approximation = T,
max.order=8, max.p=8)
Fitting models using approximations to speed things up...
ARIMA(0,0,0) with zero mean : 2080.721
ARIMA(0,0,0) with non-zero mean : 2006.724
ARIMA(0,0,1) with zero mean : 1971.633
ARIMA(0,0,1) with non-zero mean : 1918.454
ARIMA(0,0,2) with zero mean : 1923.633
ARIMA(0,0,2) with non-zero mean : 1890.07
ARIMA(0,0,3) with zero mean : 1911.329
ARIMA(0,0,3) with non-zero mean : 1888.462
ARIMA(0,0,4) with zero mean : 1904.649
ARIMA(0,0,4) with non-zero mean : 1888.861
ARIMA(0,0,5) with zero mean : 1906.728
ARIMA(0,0,5) with non-zero mean : 1885.904
ARIMA(1,0,0) with zero mean : 1934.293
ARIMA(1,0,0) with non-zero mean : 1926.793
ARIMA(1,0,1) with zero mean : 1902.375
ARIMA(1,0,1) with non-zero mean : 1890.554
ARIMA(1,0,2) with zero mean : 1902.539
ARIMA(1,0,2) with non-zero mean : 1888.371
ARIMA(1,0,3) with zero mean : 1904.57
ARIMA(1,0,3) with non-zero mean : 1889.878
ARIMA(1,0,4) with zero mean : 1906.532
ARIMA(1,0,4) with non-zero mean : 1888.773
ARIMA(1,0,5) with zero mean : Inf
ARIMA(1,0,5) with non-zero mean : 1885.078
ARIMA(2,0,0) with zero mean : 1906.818
ARIMA(2,0,0) with non-zero mean : 1878.042
ARIMA(2,0,1) with zero mean : 1903.406
ARIMA(2,0,1) with non-zero mean : 1879.57
ARIMA(2,0,2) with zero mean : 1905.591
ARIMA(2,0,2) with non-zero mean : 1876.453
ARIMA(2,0,3) with zero mean : Inf
ARIMA(2,0,3) with non-zero mean : Inf
ARIMA(2,0,4) with zero mean : Inf
ARIMA(2,0,4) with non-zero mean : Inf
ARIMA(2,0,5) with zero mean : Inf
ARIMA(2,0,5) with non-zero mean : Inf
ARIMA(3,0,0) with zero mean : 1904.652
ARIMA(3,0,0) with non-zero mean : 1881.03
ARIMA(3,0,1) with zero mean : 1906.551
ARIMA(3,0,1) with non-zero mean : Inf
ARIMA(3,0,2) with zero mean : Inf
ARIMA(3,0,2) with non-zero mean : 1879.019
ARIMA(3,0,3) with zero mean : Inf
ARIMA(3,0,3) with non-zero mean : Inf
ARIMA(3,0,4) with zero mean : Inf
ARIMA(3,0,4) with non-zero mean : Inf
ARIMA(3,0,5) with zero mean : Inf
ARIMA(3,0,5) with non-zero mean : Inf
ARIMA(4,0,0) with zero mean : 1907.789
ARIMA(4,0,0) with non-zero mean : 1876.139
ARIMA(4,0,1) with zero mean : Inf
ARIMA(4,0,1) with non-zero mean : 1877.57
ARIMA(4,0,2) with zero mean : Inf
ARIMA(4,0,2) with non-zero mean : Inf
ARIMA(4,0,3) with zero mean : Inf
ARIMA(4,0,3) with non-zero mean : 1883.491
ARIMA(4,0,4) with zero mean : Inf
ARIMA(4,0,4) with non-zero mean : Inf
ARIMA(5,0,0) with zero mean : 1906.868
ARIMA(5,0,0) with non-zero mean : 1878.465
ARIMA(5,0,1) with zero mean : Inf
ARIMA(5,0,1) with non-zero mean : Inf
ARIMA(5,0,2) with zero mean : Inf
ARIMA(5,0,2) with non-zero mean : Inf
ARIMA(5,0,3) with zero mean : Inf
ARIMA(5,0,3) with non-zero mean : Inf
ARIMA(6,0,0) with zero mean : 1904.575
ARIMA(6,0,0) with non-zero mean : 1880.568
ARIMA(6,0,1) with zero mean : Inf
ARIMA(6,0,1) with non-zero mean : Inf
ARIMA(6,0,2) with zero mean : Inf
ARIMA(6,0,2) with non-zero mean : Inf
ARIMA(7,0,0) with zero mean : 1895.474
ARIMA(7,0,0) with non-zero mean : 1881.193
ARIMA(7,0,1) with zero mean : 1878.376
ARIMA(7,0,1) with non-zero mean : 1874.647
ARIMA(8,0,0) with zero mean : 1866.807
ARIMA(8,0,0) with non-zero mean : 1860.933
Now re-fitting the best model(s) without approximations...
Best model: ARIMA(8,0,0) with non-zero mean
Prediccion Arg
Prediccion saldos caja de ahorro ARG.

ARIMA(2,1,2) with drift : Inf
ARIMA(0,1,0) with drift : 4048.257
ARIMA(1,1,0) with drift : Inf
ARIMA(0,1,1) with drift : 4041.301
ARIMA(0,1,0) : 4048.841
ARIMA(1,1,1) with drift : 4033.881
ARIMA(2,1,1) with drift : Inf
ARIMA(1,1,2) with drift : 4025.809
ARIMA(0,1,2) with drift : 4023.928
ARIMA(0,1,3) with drift : 4007.848
ARIMA(1,1,3) with drift : 4006.809
ARIMA(2,1,3) with drift : Inf
ARIMA(1,1,4) with drift : Inf
ARIMA(0,1,4) with drift : Inf
ARIMA(2,1,4) with drift : Inf
ARIMA(1,1,3) : 4019.882
Best model: ARIMA(1,1,3) with drift

Filtro de Hampel
Para cada observación de la variable o serie de tiempo X, se calcula la mediana de una ventana (un subconjunto de valores). Ejemplo: Si nuestro conjunto de datos es una serie temporal de 100 observaciones diarias y nos fijamos en la observación 10, vamos a mirar un subconjunto de observaciones que se llamaran ventana, tenemos observaciones alrededor de donde estamos parados, vamos a tener vecinos, de cada lado de la observación tomada. 9 datos anteriores y 90 posteriores. Para cada ventana se calcula la mediana (medida representativa y robusta), es decir, si en esa ventana se encuentran los atípicos, la mediana va a ser una medida que represente el conjunto sin que este afectada por los atípicos. La media no es robusta porque se ve afectada por valores atípicos.
Luego se calculara para cada grupo de observaciones la distancia entre cada valor individual con la mediana del grupo, esto nos dará una desviación respecto a la mediana y para tener una medida representativa de todo el grupo se sacara la mediana de todas las desviaciones absolutas. Cambien conocida como mediana de la desviación absoluta con respecto a la mediana", que también se conoce como MAD (median absolute deviation).
La idea es que si una muestra difiere de la mediana en más de k desviaciones estándar, se considera un dato atípico y se reemplaza por el valor de la mediana.
Usualmente se suele seleccionar k=3, lo que se conoce como la regla de las “3 sigmas”. Pero esto puede depender del problema concreto.
Además entre el MAD y la desviación estándar se cumple la siguiente propiedad:
𝜎 ≈ 1.4826 MAD
Para el filtro de Hampel necesitamos definir dos cosas: 1. El tamaño de la ventana (cuántos vecinos vamos a considerar). 2. El número de desviaciones para identificar a los atípicos (k).
Un umbral más alto hace que el filtro sea más tolerante, uno más bajo identificará más puntos como valores atípicos.
library(pracma)
set.seed(33)
# Generar los datos aleatorios
x = numeric(1024)
z = rnorm(1024)
x[1] = z[1]
for (i in 2:1024) {
x[i] = 0.4*x[i-1] + 0.8*x[i-1]*z[i-1] + z[i]
}
# Aplicar el Filtro de Hampel a nuestra serie temporal X con el parametro k que representa la ventana, es la cantidad de vecinos que vamos a considerar para hacer el calculo.
omad = hampel(x, k=20)
# Indice de los atípicos detectados:
omad$ind
[1] 30 73 77 78 80 81 82 83 107 122 123 127 128 129 130
[16] 131 132 168 184 185 215 216 217 218 219 221 223 224 279 280
[31] 281 282 283 284 285 286 329 330 361 417 418 455 460 461 481
[46] 505 538 539 540 541 574 575 671 672 700 732 733 734 743 788
[61] 791 822 827 828 829 848 849 874 897 898 899 900 901 915 916
[76] 917 918 919 920 974
# Gráfico detectando atípicos
#
plot(1:1024, x, type="l")
points(omad$ind, x[omad$ind], pch=21, col="darkred")

# Nueva serie sin atípicos
x_new = omad$y
# Ambas series
plot(1:1024, x, type="l",col="red",xlim=c(0, 1050), ylim=c(-60,70))
par(new=TRUE)
plot(1:1024, x_new, type="l",col="blue",xlim=c(0, 1050), ylim=c(-60,70),axes= FALSE, xlab='', ylab='' )

NA
NA
NA
