La naturaleza de los datos de series de tiempo
El an ́alisis de series de tiempo tiene muchas aplicaciones en diversos cam- pos de la ciencia. Por ejemplo, en la econom ́ıa continuamente se esta ́ expuesto a observaciones de los mercados financieros, indicadores de empleo, ́ındices o indicadores del nivel de produccio ́n, ́ındices de precios, etc. En otros campos de las ciencias sociales se emplea el ana ́lisis de series de tiempo para analizar la evoluci ́on de la poblaci ́on, los nacimientos, o el nu ́mero de personas con matriculas escolares. Finalmente, en las ciencias exactas se pueden encontrar casos como los de un epidemio ́logo que puede estar interesado en el nu ́mero de casos de influenza observados en algu ́n per ́ıodo de tiempo dado y si a ́estos se les puede asociar con algu ́n tipo de estacionalidad. La primera aproximacio ́n que se suele tener a las series de tiempo es mediante el ex ́amen de datos puestos en una gr ́afica, en la cual uno de los ejes es el tiempo. No obstante, en este tipo de exa ́menes existen dos enfoques. Por un lado, existe el efoque de la importancia del tiempo, el cual consiete en reconocer c ́omo lo que sucede hoy es afectado por lo que paso ́ ayer – o, en general, en periodos pasados–, o co ́mo lo que pasa hoy afectara ́ los eventos futuros. Por otro lado, existe el enfoque del ana ́lisis frecuentista o de frecuencia, mediante el cual se busca reconocer la importancia que tiene para los investigadores los ciclos: estacionales, de crisis econo ́micas, etc.
library(pacman)
p_load("tidyverse", "lubridate", "forecast", "TTR", "MLmetrics", "tseries", "fpp", "TSstudio")
Aquí usaremos los datos provenientes del paquete llamado “tsdl” que significa: Time Series Data Library
library(tsdl)
tsdl
## Time Series Data Library: 648 time series
##
## Frequency
## Subject 0.1 0.25 1 4 5 6 12 13 52 365 Total
## Agriculture 0 0 37 0 0 0 3 0 0 0 40
## Chemistry 0 0 8 0 0 0 0 0 0 0 8
## Computing 0 0 6 0 0 0 0 0 0 0 6
## Crime 0 0 1 0 0 0 2 1 0 0 4
## Demography 1 0 9 2 0 0 3 0 0 2 17
## Ecology 0 0 23 0 0 0 0 0 0 0 23
## Finance 0 0 23 5 0 0 20 0 2 1 51
## Health 0 0 8 0 0 0 6 0 1 0 15
## Hydrology 0 0 42 0 0 0 78 1 0 6 127
## Industry 0 0 9 0 0 0 2 0 1 0 12
## Labour market 0 0 3 4 0 0 17 0 0 0 24
## Macroeconomic 0 0 18 33 0 0 5 0 0 0 56
## Meteorology 0 0 18 0 0 0 17 0 0 12 47
## Microeconomic 0 0 27 1 0 0 7 0 1 0 36
## Miscellaneous 0 0 4 0 1 1 3 0 1 0 10
## Physics 0 0 12 0 0 0 4 0 0 0 16
## Production 0 0 4 14 0 0 28 1 1 0 48
## Sales 0 0 10 3 0 0 24 0 9 0 46
## Sport 0 1 1 0 0 0 0 0 0 0 2
## Transport and tourism 0 0 1 1 0 0 12 0 0 0 14
## Tree-rings 0 0 34 0 0 0 1 0 0 0 35
## Utilities 0 0 2 1 0 0 8 0 0 0 11
## Total 1 1 300 64 1 1 240 3 16 21 648
Los datos que utilizaremos son de las ventas mensaules de combustible (millones de galones) en Ontario desde 1960 hasta 1975
sales <- tsdl[[4]]
autoplot(sales)
anyNA(sales)
## [1] FALSE
sales_dc <- sales %>%
decompose(type="multiplicative") %>%
autoplot()
sales_dc