1. Preparación y Formateo de Datos

Aca analizaremos paso a paso la Serie de Tiempo del Desempleo en Colombia segun las Notas de Clase de Series de Tiempo

Definición de la Variable:

Grafica

library(readxl)
library(TSstudio)
## Warning: package 'TSstudio' was built under R version 4.5.2
Datos <- read_excel("Series_Empleo.xlsx", range = "A4:E302",sheet = "Series de datos")

Observaciones <- (Datos[[5]])

## No es necesario agregar una variable fechas ya que ts interpreta siempre la columna 1 como la ubicacion que contiene las fechas
##Fechas <- Datos[[1]]##

Serie_de_tiempo <-ts(Observaciones, start = c(2000,1), frequency = 12)

plot(Serie_de_tiempo, main = "Series de Tiempo Desempleo Col" , xlab = "Meses de 2001-2026" , ylab ="Desempleo Col" , col="blue")

Esta serie presenta un tendencia decreciente excepto por el periodo entre 2020 y 2021. , no es clara si es una tendencia determinística o estocástica. Parece tener cierto ciclo estacional anual

Objetivos:

(a.) Establecer un modelo probabilístico que represente los datos.(se debe estudiar las características que presentan las series de tiempo.) (b.) Estimar los parámetros del modelo propuesto.(asumiendo que nos estamos basando en un enfoque paramétrico) (c.) Comprobar la bondad del ajuste del modelo a los datos.(vericación de supuestos) (d.) Usar el modelo ajustado ya sea para entender el comportamiento de los datos o para hacer pronósticos

Procesos Estocásticos y Estadística Descriptiva

  1. El proceso es estocastico discreto o continuo? = El proceso es discreto por mes.

Observaciones de un periodo de 5 años entre 2010 y 2015

unemployment <- window(Serie_de_tiempo, start = c(2010),end = c(2015, 12))
ts_plot(unemployment,
          title = "Col Desempleo mensual",
           Ytitle = "Tasa del desempleo (%)",
           Xtitle = "Año",
          Xgrid = TRUE,
Ygrid = TRUE)

En esta grafica podemos observar que hay un ciclo anual con una leve tendencia a la baja.

Ahora observemos que pasa haciendolo con xts

library(xts)
## Warning: package 'xts' was built under R version 4.5.2
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.5.3
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
Fechas = as.yearmon(time(Serie_de_tiempo))

Desempleo_Col_xts = xts(x = Observaciones, frequency = 12, order.by = Fechas)

ts_info(Desempleo_Col_xts)
##  The Desempleo_Col_xts series is a xts object with 1 variable and 298 observations
##  Frequency: monthly 
##  Start time: Jan 2000 
##  End time: Oct 2024
plot(Desempleo_Col_xts, main = "Serie de Tiempo Desempleo Col (xts)", col = "blue")

##Tendencia ### Descomposición por Filtro de Promedios Móviles

descomposicion = decompose(Serie_de_tiempo)

plot(descomposicion)

descomposicion$trend
##            Jan       Feb       Mar       Apr       May       Jun       Jul
## 2000        NA        NA        NA        NA        NA        NA 15.031968
## 2001 15.247432 15.307039 15.341998 15.423446 15.561829 15.569151 15.486285
## 2002 14.739361 14.664136 14.594088 14.427233 14.201469 14.123164 14.160663
## 2003 14.058064 13.921780 13.789021 13.704231 13.645782 13.454193 13.218763
## 2004 12.430451 12.335037 12.195914 12.031640 11.896759 11.831146 11.793199
## 2005 11.557690 11.678808 11.805403 11.895884 11.991009 12.094242 12.122849
## 2006 11.940882 11.764789 11.631988 11.521527 11.378827 11.258054 11.189583
## 2007 11.165317 11.196162 11.202225 11.260254 11.354954 11.439312 11.512279
## 2008 11.861604 11.940912 12.064600 12.150042 12.192321 12.231713 12.245467
## 2009 12.302267 12.213475 12.093608 12.020400 11.997950 11.953450 11.931050
## 2010 11.494108 11.414867 11.330179 11.224617 11.116312 11.021975 10.931571
## 2011 10.658433 10.649687 10.650775 10.641525 10.634904 10.610867 10.589446
## 2012 10.268525 10.214225 10.130292 10.052196  9.963521  9.875929  9.803771
## 2013  9.492737  9.448371  9.423446  9.398475  9.391208  9.391604  9.339900
## 2014  9.184658  9.209912  9.243483  9.236987  9.207242  9.241071  9.289692
## 2015  9.509908  9.498000  9.496946  9.513596  9.533783  9.535987  9.547808
## 2016  9.529375  9.570112  9.603671  9.649650  9.683262  9.683079  9.703733
## 2017  9.799458  9.800967  9.832025  9.867329  9.921604 10.005550 10.082308
## 2018 10.607196 10.727933 10.806754 10.864679 10.889208 10.903538 10.949529
## 2019 14.833142 15.322221 15.765983 16.159817 16.503754 16.839662 17.126262
## 2020 15.069029 14.697550 14.380292 14.144283 13.927917 13.689583 13.456667
## 2021 11.840417 11.697083 11.551667 11.372083 11.252917 11.178750 11.074167
## 2022 10.448750 10.330000 10.247083 10.206250 10.175000 10.120833 10.090833
## 2023 10.311667 10.322500 10.313333 10.274167 10.202500 10.123333 10.025000
## 2024  9.290833  9.206667  9.127917  9.041250        NA        NA        NA
##            Aug       Sep       Oct       Nov       Dec
## 2000 14.950888 14.986780 15.092954 15.158993 15.194034
## 2001 15.388111 15.259913 15.123368 14.956203 14.842964
## 2002 14.174498 14.178332 14.207163 14.248222 14.180010
## 2003 13.126061 12.991526 12.824743 12.663360 12.522056
## 2004 11.684661 11.620351 11.596261 11.525957 11.492021
## 2005 12.141314 12.116723 12.057413 12.080512 12.071187
## 2006 11.133050 11.115379 11.089608 11.061500 11.106129
## 2007 11.571617 11.650258 11.732979 11.780021 11.814008
## 2008 12.232837 12.236771 12.271225 12.308254 12.324871
## 2009 11.907463 11.816783 11.738642 11.669729 11.582296
## 2010 10.868646 10.842262 10.811183 10.754896 10.699042
## 2011 10.581817 10.550408 10.475000 10.395508 10.323575
## 2012  9.742854  9.672742  9.593725  9.557825  9.533463
## 2013  9.273988  9.261788  9.286083  9.254875  9.197958
## 2014  9.351442  9.389942  9.373192  9.402654  9.472162
## 2015  9.545525  9.514542  9.531917  9.548079  9.528375
## 2016  9.711325  9.730504  9.761121  9.780817  9.798862
## 2017 10.178733 10.276117 10.355275 10.413058 10.481925
## 2018 11.062942 11.555862 12.424562 13.326908 14.171500
## 2019 17.306433 17.162762 16.672458 16.152413 15.587254
## 2020 13.236250 12.947500 12.577917 12.247083 12.019583
## 2021 10.922083 10.816250 10.790417 10.703333 10.564167
## 2022 10.156667 10.206250 10.196250 10.227917 10.281250
## 2023  9.899583  9.752083  9.621250  9.496667  9.380000
## 2024        NA        NA        NA

En esta imagen podremos ver que la tendencia fue decreciendo hasta la pandemia donde aumento, posterior a la pandemia tenemos una tendencia a la baja Podemos ver que si tenia una componente estacional en el tercer renglon Con respecto a la componente aleatoria podemos ver que se mantuvo casi toda la serie de tiempo en el mismo intervalo excepto por la pandemia por lo que podriamos considerar que tiene la media = 0, por otra parte nos muestra que la Varianza no fue constante ya que en la pandemia tuvo picos muy altos En conclusion la componente aleatoria no es estacionaria

Box-Cox

#Analisis de Varianza Visualmente observamos que la varianza tuvo un punto en el cual tuvo un incremento muy grande que fue durante la pandemia, pero aparte de este error las demas varianzas no son muy diferentes por lo que debemoss analizar un poco mas a fondo si necesitaremos hacer Box y Cox

library(car)
## Warning: package 'car' was built under R version 4.5.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.5.3
library(forecast)
## Warning: package 'forecast' was built under R version 4.5.3
lambda_optimo <- forecast::BoxCox.lambda(Serie_de_tiempo, method ="loglik", lower = -1, upper = 3) 

car::boxCox(Serie_de_tiempo~1)

car::powerTransform(Serie_de_tiempo~1)
## Estimated transformation parameter 
##         Y1 
## -0.9516174
plot(forecast::BoxCox(Serie_de_tiempo,lambda=lambda_optimo))

lST=log(Serie_de_tiempo)


par(mar = c(2, 4, 3, 1)) 
par(mfrow=c(2,1))
plot(Serie_de_tiempo,main="Serie sin Transformar")
plot(lST,main="Series con Transformación BoxCox con lambda 0")

forecast::BoxCox.lambda(lST, method ="guerrero", lower = -1, upper = 3)
## [1] -0.8143366

El resultado de lambda fue de -1, por lo que sugiere aplicar una transformación inversa

Como podemos ver en la grafica de lambda optimo (-1) ya no hay interpretabilidad de la serie ya que esta estirando los valores bajos y deformando la tendencia reciente, ademas de quitar las escalas

Con un lambda de 0, podemos ver que tambien hay una deformacion del pico del Covid y que los demas años se mantienen muy similares

No se debería usar Box-Cox en esta serie. La varianza es constante casi todo el tiempo, el problema es un dato atípico.

Diferenciación

serie_diff <- diff(Serie_de_tiempo)
par(mar = c(4, 4, 3, 1))
par(mfrow = c(2, 1))

plot(Serie_de_tiempo, 
     main = "Serie Original (No Estacionaria)", 
     col = "blue", ylab = "Tasa (%)")

plot(serie_diff, 
     main = "Serie con Primera Diferencia (Estacionaria en Media)", 
     col = "darkgreen", ylab = "Cambio Porcentual")
abline(h = 0, col = "red", lty = 2) # Línea de referencia en cero

Como podemos apreciar logramos que la grafica oscilara alrededor de un mismo valor, de todas formas podemos ver que el pico de la pandemia es el mas alto al igual que posterior bajada es la mas profunda, se sigue viendo un patron estacionario en el que vemos que algunos datos del inicio quizas son mas anormales que otros.

par(mfrow = c(2, 1))

acf(Serie_de_tiempo, lag.max = 60, 
    main = "ACF Serie Original (Decaimiento Lento = No Estacionaria)")

acf(serie_diff, lag.max = 60, 
    main = "ACF Serie Diferenciada (Identificación de p, q)")

Al analizar la función de autocorrelación (ACF) de la serie original, se observa un decaimiento sumamente lento en los rezagos, lo cual confirma la no estacionariedad en la media debido a la presencia de una tendencia.

Tras aplicar la primera diferencia, las autocorrelaciones de corto plazo decaen hacia el interior de las bandas de confianza, indicando que la tendencia ha sido eliminada con éxito. Sin embargo, el ACF de la serie diferenciada revela picos estadísticamente significativos en los rezagos estacionales enteros (1, 2, 3, 4, 5 años).

Adicionalmente, se observan correlaciones inversas menores en los medios periodos ( 0.5, 1.5…años).Este comportamiento evidencia que, aunque se ha estabilizado la media, persiste un fuerte componente estacional anual.