knitr::opts_chunk$set(fig.show = "asis", echo = FALSE,message = F,warning = F)
El desempleo constituye uno de los indicadores más relevantes para evaluar la situación económica de un país. En este trabajo se analiza la evolución de la tasa de desempleo en los Estados Unidos durante el período 1992–2009, con el propósito de identificar tendencias y comportamientos temporales a nivel estatal mediante técnicas de análisis de series de tiempo.
La elección de esta base de datos se fundamenta principalmente en su adecuación para el análisis de series de tiempo, dado que contiene una variable temporal explícita que permite estudiar la evolución de un indicador laboral anual.
Además, se consideró un conjunto de datos de estructura sencilla, compuesto por un número reducido de variables, lo cual facilita la comprensión, manipulación y modelación de la información sin perder relevancia analítica.
El tema del desempleo resulta social y económicamente relevante, permitiendo explorar comportamientos de interés como la tendencia, estacionariedad y variaciones en la tasa de desempleo en el contexto de Estados Unidos durante el periodo 1992–2009.
El conjunto de datos utilizado corresponde a los registros del desempleo en Estados Unidos durante el periodo comprendido entre 1990 y 2016. Fue obtenido del repositorio público Kaggle en el siguiente enlace: 🔗 Unemployment by County — US.
Este conjunto de datos fue creado por Jay Ravaliya, quien recopiló la información directamente de la Oficina de Estadísticas Laborales del Departamento de Trabajo de los Estados Unidos (Bureau of Labor Statistics, BLS).
La base de datos original contiene un total de 885.548 observaciones y está compuesta por cinco variables, de las cuales dos son numéricas y tres categóricas, distribuidas de la siguiente manera:
Variables numéricas:
Rate: tasa de desempleo (%).
Year: año correspondiente a cada observación.
Variables categóricas:
Month: contiene cada mes de las observaciones.
State: contiene cada estado de las observaciones.
County: contiene cada condado de las observaciones.
Para el presente estudio, se consideró el periodo 1992–2009, debido a que en este intervalo se encuentran representados todos los meses del año, garantizando así una serie temporal continua y completa. En contraste, en otros años del conjunto original se identificaron vacíos mensuales, los cuales podrían afectar la consistencia del análisis de series de tiempo.
El análisis se centra específicamente en las series temporales de las tasas de desempleo promedio mensual de los estados de California y Washington, las cuales fueron construidas a partir del cálculo del promedio de las tasas registradas en los distintos condados de cada estado para cada mes.
La base de datos original recopila los registros mensuales de la tasa de desempleo en los Estados Unidos durante el periodo comprendido entre 1990 y 2016.
En total, contiene información correspondiente a 47 estados y 1.752 condados, lo cual permite una visión amplia y detallada de la evolución del desempleo a nivel territorial.
Este conjunto de datos constituye una base sólida para el análisis de series de tiempo, ya que permite estudiar la evolución temporal del desempleo en diferentes regiones del país.
En cuanto a la exploración inicial de los datos, se examinaron las principales características estructurales de la base mediante funciones como glimpse() y head(), lo que permitió verificar el tipo de variables, su formato y las primeras observaciones del conjunto. Posteriormente, se realizó un resumen estadístico de la variable Rate (tasa de desempleo) mediante la función stat.desc(), con el fin de obtener una descripción general de su comportamiento, incluyendo medidas de tendencia central, dispersión y forma.
## Rows: 885,548
## Columns: 5
## $ Year <dbl> 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 201…
## $ Month <chr> "February", "February", "February", "February", "February", "Fe…
## $ State <chr> "Mississippi", "Mississippi", "Mississippi", "Mississippi", "Mi…
## $ County <chr> "Newton County", "Panola County", "Monroe County", "Hinds Count…
## $ Rate <dbl> 6.1, 9.4, 7.9, 6.1, 10.6, 6.9, 7.9, 14.3, 4.5, 11.1, 11.5, 7.6,…
| Year | Month | State | County | Rate |
|---|---|---|---|---|
| 2015 | February | Mississippi | Newton County | 6.1 |
| 2015 | February | Mississippi | Panola County | 9.4 |
| 2015 | February | Mississippi | Monroe County | 7.9 |
| 2015 | February | Mississippi | Hinds County | 6.1 |
| 2015 | February | Mississippi | Kemper County | 10.6 |
| 2015 | February | Mississippi | Calhoun County | 6.9 |
| 2015 | February | Mississippi | Clarke County | 7.9 |
| 2015 | February | Mississippi | Jefferson County | 14.3 |
| 2015 | February | Mississippi | Madison County | 4.5 |
| 2015 | February | Mississippi | Sharkey County | 11.1 |
| tasa (%) | |
|---|---|
| nbr.val | 885548.00 |
| nbr.null | 17.00 |
| nbr.na | 0.00 |
| min | 0.00 |
| max | 58.40 |
| range | 58.40 |
| sum | 5468267.50 |
| median | 5.50 |
| mean | 6.18 |
| SE.mean | 0.00 |
| CI.mean.0.95 | 0.01 |
| var | 9.69 |
| std.dev | 3.11 |
| coef.var | 0.50 |
De acuerdo al análisis descriptivo de la variable Rate (tasa de desempleo), se evidencia que la tasa de desempleo presenta valores que oscilan entre 0% y 58.4%, con un promedio de 6.18% y una mediana de 5.5%, lo que sugiere una distribución ligeramente asimétrica hacia la derecha. Así mismo, El coeficiente de variación (0.50) indica una variabilidad moderada en la tasa de desempleo entre las distintas observaciones, lo que refleja diferencias significativas entre regiones y períodos. Asimismo, la desviación estándar de 3.11% y la varianza de 9.7% confirman que la dispersión de los datos alrededor de la media no es tan alta.
El intervalo de confianza al 95% para la media es muy estrecho (±0.01), lo que implica una alta precisión en la estimación del promedio general de la tasa de desempleo. Se identificaron 17 valores nulos en la variable Rate, los cuales representan observaciones sin registro de la tasa de desempleo.
En ese sentido pasaremos ahora a filtrar de la base de datos completa, las observaciones que se analizarán en este estudio:
| State | Year | Month | Tasa_Promedio | Fecha |
|---|---|---|---|---|
| California | 1992 | January | 12.87069 | 1992-01-01 |
| California | 1992 | February | 13.53793 | 1992-02-01 |
| California | 1992 | March | 13.00000 | 1992-03-01 |
| California | 1992 | April | 11.83966 | 1992-04-01 |
| California | 1992 | May | 11.33621 | 1992-05-01 |
| California | 1992 | June | 11.81034 | 1992-06-01 |
| California | 1992 | July | 11.55000 | 1992-07-01 |
| California | 1992 | August | 10.82931 | 1992-08-01 |
| California | 1992 | September | 11.00690 | 1992-09-01 |
| California | 1992 | October | 11.12414 | 1992-10-01 |
| California | 1992 | November | 12.54483 | 1992-11-01 |
| California | 1992 | December | 12.96379 | 1992-12-01 |
| California | 1993 | January | 14.23621 | 1993-01-01 |
| California | 1993 | February | 14.36034 | 1993-02-01 |
| California | 1993 | March | 13.60862 | 1993-03-01 |
| State | Year | Month | Tasa_Promedio | Fecha |
|---|---|---|---|---|
| Washington | 1992 | January | 11.733333 | 1992-01-01 |
| Washington | 1992 | February | 12.151282 | 1992-02-01 |
| Washington | 1992 | March | 10.989744 | 1992-03-01 |
| Washington | 1992 | April | 9.466667 | 1992-04-01 |
| Washington | 1992 | May | 8.894872 | 1992-05-01 |
| Washington | 1992 | June | 8.410256 | 1992-06-01 |
| Washington | 1992 | July | 8.394872 | 1992-07-01 |
| Washington | 1992 | August | 8.448718 | 1992-08-01 |
| Washington | 1992 | September | 7.679487 | 1992-09-01 |
| Washington | 1992 | October | 8.066667 | 1992-10-01 |
| Washington | 1992 | November | 9.694872 | 1992-11-01 |
| Washington | 1992 | December | 10.648718 | 1992-12-01 |
| Washington | 1993 | January | 13.171795 | 1993-01-01 |
| Washington | 1993 | February | 12.689744 | 1993-02-01 |
| Washington | 1993 | March | 11.820513 | 1993-03-01 |
Estadísticos descriptivos
##
## Correlación California-Washington: 0.8077
| Estado | Observaciones | Media | Mediana | SD | Min | Max | Var | Rango |
|---|---|---|---|---|---|---|---|---|
| California | 216 | 8.77 | 8.27 | 2.27 | 5.22 | 14.36 | 5.14 | 9.14 |
| Washington | 216 | 7.80 | 7.56 | 1.72 | 5.02 | 13.17 | 2.95 | 8.16 |
En la Tabla anterior se presentan los principales estadísticos descriptivos de las tasas de desempleo para los estados de California y Washington durante el periodo analizado. En promedio, California registró una tasa de desempleo de 8.77%, ligeramente superior a la de Washington, cuyo promedio fue de 7.80%. Esto indica que, en términos generales, el desempleo ha sido más elevado en California a lo largo del periodo considerado.En cuanto a la variabilidad, California presenta una desviación estándar de 2.27, superior a la de Washington (1.72), lo que refleja una mayor fluctuación en las tasas de desempleo californianas. Este patrón se confirma con la varianza (5.14 frente a 2.95) y el rango (9.14 frente a 8.16).
De igual forma, se obtiene que la tasa de desempleo osciló entre 5.22% y 14.36% en California, y entre 5.02% y 13.17% en Washington, evidenciando que ambos estados enfrentaron episodios de desempleo alto, aunque de menor intensidad en la capital del país.
Los diagramas de caja anteriores nos permiten visualizar la distribución de las tasas promedios de cada uno de los Estados estudiados en este caso. En ambos estados se observa una asimetría leve hacia la derecha, lo que indica la existencia de algunos periodos con tasas de desempleo más altas de lo habitual. California muestra una mayor amplitud intercuartílica, evidenciando una variabilidad más pronunciada que Washington.
Los histogramas de las tasas promedio en el periodo comprendido indican una distribución unimodal, con una concentración de observaciones en torno a los valores medios de desempleo. En California, la distribución se desplaza ligeramente hacia la derecha, mientras que en Washington se presenta una forma más simétrica. Esto refleja que, aunque ambos estados siguen patrones similares, California ha experimentado con mayor frecuencia tasas más elevadas.
El gráfico de dispersión entre las tasas promedio de desempleo en ambos Estados muestra una relación positiva clara, lo que indica que cuando el desempleo aumenta en un estado, tiende a hacerlo también en el otro. Sin embargo, la nube de puntos no se ajusta perfectamente a una línea recta, por lo cual podría pensarse que existen factores específicos de cada estado que influyen de manera diferente en sus dinámicas laborales.
En esta sección se analiza el comportamiento temporal de la tasa promedio de desempleo en los estados de California y Washington durante el periodo 1992–2009.
El propósito es identificar patrones como tendencia y estacionariedad para su posterior modelado mediante técnicas de series de tiempo.
En el siguiente gráfico de la evolución del desempleo en 2 regiones de las más populares de los Estados unidos se puede observar claramente cómo fue el comportamiento similar, especialmente en la primera década del periodo estudiado. En comparación, es notable que el estado de California mantiene tasas de desempleo más altas que Washington durante la mayor parte del periodo, lo que refleja una mayor vulnerabilidad en la dinámica laboral californiana frente a las fluctuaciones económicas nacionales.
Serie Temporal del Estado de Whashington
A continuación, se muestran las observaciones de la serie temporal correspondiente a la tasa promedio mensual de desempleo en el estado de Washington para el periodo 1992–2009.
Esta serie se define con una frecuencia mensual (12 observaciones por año) y constituye la base para los análisis de tendencia, estacionalidad y modelamiento ARIMA que se presentan más adelante.
## Jan Feb Mar Apr May Jun Jul
## 1992 11.733333 12.151282 10.989744 9.466667 8.894872 8.410256 8.394872
## 1993 13.171795 12.689744 11.820513 10.176923 9.007692 8.461538 8.317949
## 1994 11.415385 11.425641 10.838462 9.364103 8.261538 7.471795 7.479487
## 1995 10.612821 10.971795 9.679487 8.907692 8.120513 7.471795 7.351282
## 1996 11.097436 10.792308 9.941026 8.879487 8.551282 7.510256 7.289744
## 1997 9.533333 9.476923 8.615385 7.497436 6.430769 6.020513 5.733333
## 1998 9.558974 9.089744 8.356410 6.687179 6.164103 6.023077 5.787179
## 1999 9.179487 9.438462 8.202564 7.248718 6.712821 6.435897 5.910256
## 2000 8.276923 8.433333 7.725641 6.641026 6.307692 6.015385 5.864103
## 2001 9.251282 9.415385 8.966667 8.233333 7.415385 7.058974 6.602564
## 2002 10.630769 10.238462 9.843590 9.358974 8.125641 7.848718 7.323077
## 2003 10.184615 10.135897 9.564103 8.930769 8.223077 8.233333 7.689744
## 2004 9.838462 9.415385 8.779487 7.520513 6.858974 6.758974 6.307692
## 2005 8.487179 8.469231 7.458974 6.856410 6.338462 6.017949 5.807692
## 2006 7.958974 7.823077 6.930769 6.458974 6.243590 5.792308 5.720513
## 2007 7.751282 7.553846 6.728205 6.266667 5.787179 5.371795 5.400000
## 2008 7.589744 7.805128 7.089744 6.358974 6.379487 6.112821 5.884615
## 2009 9.766667 10.392308 10.171795 9.561538 9.507692 9.448718 9.217949
## Aug Sep Oct Nov Dec
## 1992 8.448718 7.679487 8.066667 9.694872 10.648718
## 1993 8.317949 7.538462 7.833333 8.561538 9.576923
## 1994 7.784615 6.887179 7.187179 8.612821 9.156410
## 1995 7.679487 6.784615 7.041026 8.669231 9.107692
## 1996 7.033333 6.371795 6.364103 7.600000 8.402564
## 1997 5.776923 5.146154 5.374359 6.487179 7.397436
## 1998 6.051282 5.617949 5.864103 6.917949 7.841026
## 1999 5.948718 5.212821 5.056410 6.156410 6.971795
## 2000 6.264103 5.394872 5.535897 6.856410 7.564103
## 2001 7.184615 6.510256 6.820513 8.425641 9.356410
## 2002 7.400000 6.707692 6.720513 8.182051 8.853846
## 2003 7.892308 7.158974 7.023077 8.217949 8.530769
## 2004 6.379487 5.710256 5.753846 6.812821 7.582051
## 2005 6.002564 5.658974 5.584615 6.579487 6.948718
## 2006 5.905128 5.325641 5.015385 6.207692 6.656410
## 2007 5.410256 5.117949 5.064103 6.058974 6.884615
## 2008 6.089744 5.625641 5.882051 6.871795 7.979487
## 2009 9.738462 9.751282 9.794872 10.658974 11.812821
Serie Temporal del Estado de California
De igual forma, se muestra las observaciones de la serie temporal correspondiente a la tasa promedio mensual de desempleo en el estado de California.
## Jan Feb Mar Apr May Jun Jul
## 1992 12.870690 13.537931 13.000000 11.839655 11.336207 11.810345 11.550000
## 1993 14.236207 14.360345 13.608621 12.513793 11.743103 11.834483 11.503448
## 1994 13.336207 13.300000 12.796552 11.450000 10.344828 10.294828 10.365517
## 1995 12.351724 11.777586 11.951724 11.424138 10.567241 10.389655 10.379310
## 1996 12.479310 12.027586 11.825862 10.536207 9.505172 9.168966 9.405172
## 1997 11.560345 11.187931 10.836207 9.379310 8.465517 8.672414 8.467241
## 1998 10.925862 10.744828 10.717241 8.960345 8.213793 8.503448 8.344828
## 1999 9.489655 9.634483 9.227586 8.172414 6.955172 7.143103 7.105172
## 2000 7.255172 7.462069 7.562069 6.243103 5.955172 6.034483 6.108621
## 2001 7.508621 7.479310 7.563793 6.484483 5.789655 6.039655 6.018966
## 2002 8.756897 8.451724 8.536207 7.734483 6.844828 7.270690 7.298276
## 2003 9.346552 9.018966 8.936207 8.112069 7.458621 7.887931 7.724138
## 2004 9.181034 8.810345 9.081034 7.777586 7.001724 7.367241 7.243103
## 2005 8.344828 8.282759 7.922414 6.917241 6.318966 6.451724 6.508621
## 2006 7.358621 7.322414 7.375862 6.812069 5.755172 5.906897 6.198276
## 2007 7.534483 7.562069 7.291379 6.712069 6.082759 6.365517 6.734483
## 2008 8.725862 8.617241 8.756897 7.798276 7.655172 8.037931 8.470690
## 2009 12.287931 12.718966 13.012069 11.931034 11.706897 12.189655 12.320690
## Aug Sep Oct Nov Dec
## 1992 10.829310 11.006897 11.124138 12.544828 12.963793
## 1993 10.543103 10.263793 10.689655 11.267241 11.567241
## 1994 9.493103 9.117241 9.265517 10.315517 10.212069
## 1995 9.367241 9.141379 9.006897 10.417241 10.537931
## 1996 8.172414 8.105172 8.365517 9.755172 9.770690
## 1997 7.727586 7.627586 7.886207 8.848276 9.268966
## 1998 7.477586 7.258621 7.431034 8.263793 8.386207
## 1999 6.174138 5.901724 5.950000 6.915517 7.322414
## 2000 5.712069 5.215517 5.313793 6.244828 6.143103
## 2001 5.946552 5.668966 6.115517 7.275862 7.570690
## 2002 6.884483 6.470690 6.841379 8.046552 8.105172
## 2003 7.200000 6.791379 7.005172 7.810345 7.860345
## 2004 6.586207 6.213793 6.486207 7.224138 7.377586
## 2005 5.996552 5.932759 5.931034 6.658621 6.560345
## 2006 5.696552 5.289655 5.277586 6.043103 6.355172
## 2007 6.274138 6.091379 6.320690 6.982759 7.631034
## 2008 8.337931 8.162069 8.732759 9.910345 10.644828
## 2009 11.917241 11.784483 12.448276 13.051724 13.660345
Una vez ya creadas las series con los datos correspondientes procedemos a visualizarlas como se muestra a continuación para su posterior análisis:
En esta sección presentamos el análisis de las funciones de autocorrelación, que sirven para evaluar la dependencia temporal entre los valores actuales y pasados de la tasa de desempleo de las series y ayudan a identificar posibles modelos ARIMA o SARIMA.
En los gráficos de autocorrelación (FAC y FACP) de la serie de California se evidencia una alta dependencia temporal, lo que indica que la serie no es estacionaria en su forma original. La FAC muestra una disminución lenta a medida que aumenta el rezago, mientras que la FACP presenta solo algunos rezagos significativamente diferentes de cero, lo que sugiere la posible presencia de un componente autorregresivo de bajo orden una vez aplicada la diferenciación.
En el caso de la serie de Washington, se observa un comportamiento similar: la FAC presenta un patrón de autocorrelaciones positivas que decrecen gradualmente, confirmando la no estacionariedad de la serie. Por su parte, la FACP muestra pocos rezagos relevantes, lo cual también apunta a que, tras la diferenciación, la dinámica de la serie podría modelarse adecuadamente mediante un proceso ARIMA con un componente autorregresivo de bajo orden.
Serie de la tasa promedio de desempleo - Estado de California
La descomposición tanto aditiva como multiplicativa muestra una tendencia general descendente hasta aproximadamente el año 2000, seguida de un incremento sostenido en los años posteriores. Además, se aprecia una estacionalidad claramente definida, lo que indica que el desempleo presenta comportamientos recurrentes en determinados meses del año. El componente aleatorio no exhibe un patrón sistemático, lo cual sugiere que las fluctuaciones restantes responden principalmente a factores externos o coyunturales, reflejando la naturaleza cíclica del desempleo en el estado.
Serie de la tasa promedio de desempleo - Estado de Washington
En el caso de Washington, las descomposiciones aditiva y multiplicativa evidencian una tendencia variable a lo largo del periodo analizado, con fases de aumento y disminución en la tasa de desempleo. Se observa también un patrón estacional leve pero recurrente, que apunta a la existencia de ciclos económicos regulares, aunque menos pronunciados que en California. El componente aleatorio presenta fluctuaciones irregulares sin un comportamiento definido, lo cual indica la influencia de factores no sistemáticos sobre la serie.
En la Figuras 6 y 7 se puede observar que ambas series presentan variaciones en su media y varianza a lo largo del tiempo, lo que sugiere la ausencia de estacionariedad (Archila et al., 2023, p.75).
Con el fin de evaluar formalmente la estacionariedad de las series temporales correspondientes a las tasas promedio de desempleo en los estados de California y Washington, se aplicó la prueba de Kwiatkowski–Phillips–Schmidt–Shin (KPSS).
Para ello consideraremos el contraste de las siguientes hipótesis:
\(H_0\): la Serie es estacionaria.
\(H_1\): la Serie no estacionaria.
Donde un resultado del p-valor menor que un nivel de significancia del 0.05, se rechaza la hipótesis nula y se concluye que la Serie no es estacionaria.
A continuación se muestran los resultados obtenidos:
##
## KPSS Test for Level Stationarity
##
## data: serie_california
## KPSS Level = 1.6453, Truncation lag parameter = 4, p-value = 0.01
##
## KPSS Test for Level Stationarity
##
## data: serie_desempleoW
## KPSS Level = 0.82667, Truncation lag parameter = 4, p-value = 0.01
Como se puede observar anteriormente, cada una de las Series tiene un p-valor de 0.01 y es menor que el nivel de significancia 0.05, por lo tanto, podemos decir que no son estacionarias teniendo en cuenta las hipótesis planteadas.
Dado que las Series no son estacionarias podemos saber mediante la función ndiffs() cuántas diferenciaciones debemos hacer para que cada una cumpla con dicha componente:
## Número de diferencias para la Serie California: 1
## Número de diferencias para la Serie Washington: 1
Dada la no estacionariedad en ambas Series originales, procederemos a realizar una diferenciación de primer orden con el propósito de eliminar la tendencia y estabilizar la media, buscando así obtener series estacionarias adecuadas para el modelado ARIMA O SARIMA.
Con aras de validar que cada una de las Series se han vuelto estacionarias, volvemos a realizar la prueba KPSS a las Series que se le aplicó la diferenciación de primer orden.
##
## KPSS Test for Level Stationarity
##
## data: st_california
## KPSS Level = 0.18959, Truncation lag parameter = 4, p-value = 0.1
##
## KPSS Test for Level Stationarity
##
## data: st_w
## KPSS Level = 0.084779, Truncation lag parameter = 4, p-value = 0.1
En efecto, los nuevos resultados del P-valor de la prueba KPSS para cada Serie es de 0.1, mayores que 0.05, por lo tanto, no rechazamos la hipótesis nula y concluimos que ahora las series son estacionarias.
En las siguientes gráficas se verán las 2 Series diferenciadas:
Funciones de Autocorrelación - Series diferenciadas
Para esta Serie diferenciada de California, la FAC presenta un pico significativo en el rezago 1, seguido de un corte rápido hacia valores cercanos a cero. Esto indica que la mayor parte de la dependencia temporal se elimina con la diferenciación.
En ese sentido el comportamiento sugiere la presencia de un componente MA de bajo orden en dicha Serie.
La FACP muestra uno o dos rezagos significativamente distintos de cero y el resto se mantiene dentro de las bandas de confianza, reforzando la idea de que la serie ya no presenta dependencia fuerte.
Para este caso, la autocorrelación cae repentinamente después del rezago 1, como también no se observan patrones persistentes ni colas largas, lo que es típico de una serie adecuadamente diferenciada.
El comportamiento apunta a un posible componente MA de bajo orden.
La FACP muestra solo unos pocos picos significativos al inicio, mientras que el resto de las barras permanece dentro de los límites de confianza.
Este patrón es típico de un modelo AR de orden bajo, pues indica que solo los primeros rezagos aportan información real para explicar el comportamiento de la serie.
Una vez alcanzada la estacionariedad de las series, se procedió a la identificación y estimación del mejor modelo ARIMA(p,d,q) mediante la función auto.arima(), con el objetivo de representar adecuadamente la dinámica temporal de la tasa de desempleo.
Para la comparación de los modelos se consideraron los criterios de información de Akaike (AIC) y Bayesiano (BIC), los cuales penalizan la complejidad del modelo y permiten seleccionar aquel que logra el mejor equilibrio entre ajuste y parsimonia (Nurkholis, 2023).
Tras la estimación de varias combinaciones posibles de parámetros en ambas Series diferenciadas de los Estados en cuestión, encontramos que para la Serie de California el modelo que presentó los menores valores de AIC y BIC fue un \(ARIMA_(3,0,1)\), mientras que para la Serie de Washington resultó un \(ARIMA_(2,0,2)\) por lo que se consideró como los modelos más adecuado para describir el comportamiento de la series analizadas.
Podemos notar que los modelos obtenidos son equivalentes a tener la forma como sigue:
\[ \phi (B)(1-B)^{d}X_{t}=\delta +\theta (B)\varepsilon _{t}\\≡ (1-\phi _{1}B-\phi _{2}B^{2}-\dots -\phi _{p}B^{p})(1-B)^{d}X_{t}=\delta +(1+\theta _{1}B+\theta _{2}B^{2}+\dots +\theta _{q}B^{q})\varepsilon_{t} \]
## Series: st_california
## ARIMA(3,0,1) with zero mean
##
## Coefficients:
## ar1 ar2 ar3 ma1
## 0.8874 -0.0062 -0.3209 -0.7563
## s.e. 0.0789 0.0898 0.0665 0.0555
##
## sigma^2 = 0.4012: log likelihood = -205.24
## AIC=420.48 AICc=420.77 BIC=437.33
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.001848632 0.6275124 0.5032634 92.24856 185.2616 2.054087
## ACF1
## Training set 0.009325402
Análisis de los residuos del Modelo ARIMA(3,0,1)
En esta sección se analizan los residuos del modelo anterior obtenido con el objetivo de poder conocer si es un modelo ARIMA apropiado para modelar la serie del Estado de California. Esto se logra por medio del uso de la función checkresiduals() del paquete forecast, como sigue:
##
## Ljung-Box test
##
## data: Residuals from ARIMA(3,0,1) with zero mean
## Q* = 283.95, df = 20, p-value < 2.2e-16
##
## Model df: 4. Total lags used: 24
##
## Shapiro-Wilk normality test
##
## data: m_st_california$residuals
## W = 0.98979, p-value = 0.1319
##
## KPSS Test for Level Stationarity
##
## data: m_st_california$residuals
## KPSS Level = 0.81428, Truncation lag parameter = 4, p-value = 0.01
En primer lugar, planteamos la prueba estadística de Ljung–Box, que se empleará en este caso para verificar si los residuos del modelo ARIMA ajustado en la sección anterior son un ruido blanco.
Para ello, de acuerdo con Bobbitt (2020) disponemos de la siguientes hipótesis:
\(H_0:\) Los residuos se distribuyen de forma independiente.
\(H_1:\) Los residuos no se distribuyen de forma independiente; presentan correlación.
Para la decisión de la prueba, con un nivel de significancia de 0.05, se rechaza \(H_0\) si el p-valor obtenido es menor que dicho valor.
Para el caso de la Serie de California, tenemos el siguiente criteriio de decisión: dado que el p-valor < 2.2e-16 de la prueba es muy pequeño al nivel de significancia de 0.05, entonces rechazamos la hipótesis nula y concluimos que los residuos no son ruido blanco.
En segundo lugar, con la aplicación de la prueba de normalidad de Shapiro-Wilk, que dispone de las siguientes hipótesis:
\(H_0:\) Los residuos provienen de una distribución normal.
\(H_1:\) Los residuos no provienen de una distribución normal.
Se concluye que a un nivel de significancia de 0.05, el p-valor = 0.13 obtenido es mayor, lo que indica claramente que la hipótesis \(H_0\) no se rechaza, por lo tanto, los residuos del Modelo ARIMA provienen de una distribución normal.
Y en tercer lugar, la prueba KPSS arroja un p-valor de 0.01 menor que el nivel de significancia, por lo cual se entiende que los residuos no son estacionarios.
Así mismo, el gráfico de residuos a lo largo del tiempo muestra que estos fluctúan alrededor de cero, pero no de manera completamente estable. Se observan variaciones en la amplitud de los residuos que sugieren ligeras inconsistencias respecto a la varianza constante. Esto implica que, aunque el modelo captura parte importante de la estructura de la serie, aún quedan patrones no explicados.
La función de autocorrelación (ACF) presenta varios rezagos que exceden los límites de significancia, dado eso el modelo no logra capturar completamente la dependencia temporal de la serie original. Es decir, en un modelo bien ajustado se espera que todos los rezagos caigan dentro del intervalo de confianza.
De acuerdo al grafico Q-Q plot los puntos siguen aproximadamente la línea recta, sugiriendo que los residuos tienen distribución cercana a la normal. Hay ligeras desviaciones en los extremos.
En conclusión, gracias a los criterios anteriores se confirma que este modelo ARIMA(3,0,1) no es el más optimo, dedido a que no logra capturar completamente la estructura temporal de la Serie del Estado de California.
## Series: st_w
## ARIMA(2,0,2) with zero mean
##
## Coefficients:
## ar1 ar2 ma1 ma2
## 0.9256 -0.8001 -0.5288 0.9342
## s.e. 0.0479 0.0495 0.0372 0.0246
##
## sigma^2 = 0.3542: log likelihood = -193.28
## AIC=396.57 AICc=396.86 BIC=413.42
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 0.001618656 0.5895502 0.4766213 -Inf Inf 1.825373 -0.00329107
Análisis de los residuos del Modelo ARIMA(2,0,2)
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,0,2) with zero mean
## Q* = 333.72, df = 20, p-value < 2.2e-16
##
## Model df: 4. Total lags used: 24
##
## Shapiro-Wilk normality test
##
## data: m_st_w$residuals
## W = 0.97317, p-value = 0.0004067
##
## KPSS Test for Level Stationarity
##
## data: m_st_w$residuals
## KPSS Level = 0.10359, Truncation lag parameter = 4, p-value = 0.1
En el primer gráfico los residuos parecen oscilar alrededor de cero sin patrones evidentes, lo que sugiere que el modelo capturó adecuadamente la estructura de la serie, pero se observa una leve tendencia en la varianza, especialmente, en la última década.
La función de autocorrelación muestra que la mayoría de los rezagos están fuera de las bandas de confianza (líneas azules punteadas). Esto indica que hay autocorrelación significativa en los residuos, lo que no es muy bueno,permite entender que el modelo no capturó toda la estructura dependiente de la serie.
Para el caso de la Serie de Washington también verificamos los mismos supuestos encontrando lo siguiente:
Para la prueba de Ljung-Box el p-valor obtenido es igual que el de la Serie de California, por lo tanto se concluye que los residuos no son ruido blanco.
En cuanto a la prueba de normalidad se obtuvo un p-valor de 0.0004 mucho menor que el nivel de significancia, por lo tanto, los residuos no provienen de una distribución normal.
Adicionalmente, se obtuvo para la prueba KPSS un p-valor de 0.1 mayor que el nivel de significancia, lo que indica que los residuos presentan estacionariedad.
El gráfico Q-Q plot anterior nos muestra hay cierta cantidad de puntos muy alejados de la línea recta, esto puede traducirse en que los datos no suelen seguir la distribución esperada, es decir, por la presencia de valores atípicos.
Las métricas de error del modelo ARIMA(2,0,2) se resumen como sigue:
El error medio (ME = 0.0016) es prácticamente cero, lo que sugiere que el modelo no presenta sesgo sistemático en sus predicciones. Los errores RMSE (0.5896) y MAE (0.4766) reflejan una precisión aceptable en las predicciones, considerando la escala de la tasa de desempleo. Así mismo, El MASE aunque mayor que 1, es común en series económicas donde la variabilidad inherente es alta.
En resumen, el presente Modelo ARIMA aunque es el mejor de todos los evaluados dentro de la función auto.arima() no lo logra modelar de manera adecuada los datos de la Serie temporal del Estado de Washington.
Teniendo como referencia los resultados anteriores, el modelo ajustado para la Serie de tiempo de la tasa promedio de desempleo en el Estado de California corresponde a un ARIMA(3,0,1) con d=0, el cual incluye tres componentes autorregresivos y un término de medias móviles. Matemáticamente, el modelo se representa en función del operador de retardo como (Archila et al., 2023, p.77).
$$ (1 - _1 B - _2 B^2 - _3 B^3--_pB^p)(1 - B)^{d}X_t = (1 + _1 B+ _2 B^2 ++_q B^q)_t
\[ \] (1 - _1 B - _2 B^2 - _3 B^3)(1 - B)^{d}X_t = (1 + _1 B )_t\≡ (1-0.8874B-(-0.0062)B2-(-0.3209)B3)(1 - B)X_t = (1 + (-0.7563)B )_t $$
Por su parte, para la Serie del Estado de Whashington resultó el modelo ARIMA (2,0,2) y viene dado de la siguiente forma:
\[ (1 - \phi_1 B - \phi_2 B^2 )(1 - B)^{d}X_t = (1 + \theta_1 B + \theta_2 B^2)\varepsilon_t\\≡ (1- 0.9256B-(-0.8001)B^2)(1 - B)X_t = (1 + ( -0.5288)B + ( 0.9342)B^2)\varepsilon_t \]
En esta sección se seleccionan los mejores modelos SARIMA para cada una de las series, que según Benítez (2021) se definen de la siguiente forma:
\[ \phi(B)\,\Phi(B^s)\,(1-B)^d\,(1-B^s)^D\,Y_t \;=\; \theta(B)\,\Theta(B^s)\,e_t \] Donde:
\[ \phi(B) = 1 - \phi_1 B - \phi_2 B^2 - \cdots - \phi_p B^p\text{(Polinomio autorregresivo no estacional)} \]
\[ \Phi(B^s) = 1 - \Phi_1 B^s - \Phi_2 B^{2s} - \cdots - \Phi_P B^{Ps} \text{(Polinomio autorregresivo estacional)} \]
\[ (1-B)^d \text{ : operador de diferenciación no estacional de orden } d \]
\[ (1-B^s)^D \text{ : operador de diferenciación estacional de orden } D \]
\[ \theta(B) = 1 - \theta_1 B - \theta_2 B^2 - \cdots - \theta_q B^q \text{(Polinomio de media móvil no estacional) } \]
\[ \Theta(B^s) = 1 - \Theta_1 B^s - \Theta_2 B^{2s} - \cdots - \Theta_Q B^{Qs} \text{(Polinomio de media móvil estacional) } \]
\[ e_t \text{ : término de error aleatorio (ruido blanco)}\\s\text{ : periodicidad} \]
## Series: st_california
## ARIMA(2,0,1)(1,1,1)[12]
##
## Coefficients:
## ar1 ar2 ma1 sar1 sma1
## 0.6986 0.2306 -0.8507 0.2994 -0.8350
## s.e. 0.1064 0.0721 0.0854 0.1148 0.0857
##
## sigma^2 = 0.07912: log likelihood = -32.15
## AIC=76.29 AICc=76.72 BIC=96.17
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.003434275 0.2699311 0.2028958 84.14292 170.8423 0.828126
## ACF1
## Training set -0.005545079
## Series: st_w
## ARIMA(0,0,2)(0,1,2)[12]
##
## Coefficients:
## ma1 ma2 sma1 sma2
## -0.1224 0.2229 -0.5374 -0.1186
## s.e. 0.0712 0.0743 0.0825 0.0788
##
## sigma^2 = 0.08362: log likelihood = -37.16
## AIC=84.33 AICc=84.63 BIC=100.9
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 0.009509535 0.2781971 0.2139402 -Inf Inf 0.819352 0.0297363
En esta parte analizaremos los residuos de los modelos ajustados, para saber si son o no los mejores para describir las series de tiempo.
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,0,1)(1,1,1)[12]
## Q* = 17.552, df = 19, p-value = 0.5525
##
## Model df: 5. Total lags used: 24
##
## KPSS Test for Level Stationarity
##
## data: fit_california$residuals
## KPSS Level = 0.37759, Truncation lag parameter = 4, p-value = 0.08681
##
## Shapiro-Wilk normality test
##
## data: fit_california$residuals
## W = 0.96898, p-value = 0.0001149
Con respecto al ajuste de este modelo, se tiene que:
El p-valor = 0.55 > 0.05 en la prueba Ljung-Box demuestra que no se rechaza la hipótesis nula de ausencia de autocorrelación, lo que confirma que los residuos son ruido blanco.
La prueba KPSS arrojó un p-valor = 0.09, no se rechaza la hipótesis nula. En efecto, hay evidencia suficiente de que los residuos son estacionarios.
En la prueba de normalidad el p-valor es menor a 0.05, lo que indica que los residuos no siguen una distribución normal según esta prueba. Pero lo importante es que se cumple independencia y estacionariedad.
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,2)(0,1,2)[12]
## Q* = 21.506, df = 20, p-value = 0.3679
##
## Model df: 4. Total lags used: 24
##
## KPSS Test for Level Stationarity
##
## data: fit_w$residuals
## KPSS Level = 0.53453, Truncation lag parameter = 4, p-value = 0.03389
##
## Shapiro-Wilk normality test
##
## data: fit_w$residuals
## W = 0.99431, p-value = 0.5919
Dados los resultados de cada una de las pruebas, podemos interpretar que:
En la Prueba de Ljung–Box el p-valor = 0.37 es > 0.05, no se rechaza la hipótesis nula. Esto significa que los residuos no presentan autocorrelación significativa, por lo que el modelo está capturando adecuadamente la dependencia temporal.
En la prueba KPSS se rechaza la hipótesis nula el p-valor = 0.033 < 0.05, por lo tanto, existe evidencia estadística de que los residuos no son estacionarios.
Y en el test de Shapiro-Wilk se evidencia un p-valor = 0.59 > 0.05, esto nos indica que los residuos del modelo ajustado no muestran desviaciones importantes respecto a la distribución normal, lo que es deseable.
Para mayor claridad de lo dicho resulta apropiado comprender los gráficos relativos a los residuos. Por ejemplo, el Q–Q plot de los residuos muestra que la mayoría de los puntos se alinean de manera cercana a la recta teórica, lo que indica que los residuos presentan un comportamiento aproximadamente normal. Las pequeñas desviaciones observadas en las colas son comunes en modelos de series de tiempo y no comprometen la validez del ajuste.
| Modelo | AIC | BIC | RMSE | MAE |
|---|---|---|---|---|
| ARIMA - serie California | 420.481 | 437.334 | 0.401 | 0.503 |
| SARIMA - serie California | 76.292 | 96.171 | 0.079 | 0.203 |
| ARIMA - serie Washington | 396.569 | 413.422 | 0.354 | 0.477 |
| SARIMA - serie Washington | 84.329 | 100.895 | 0.084 | 0.214 |
En comparación, el Estado de California presenta los Criterios de información más bajos entre los dos modelos (AIC = 76.29 y BIC = 96.17), mientras que en Washington los valores son ligeramente superiores.
Esto permite entender que el modelo SARIMA ajustado para la Serie de California logra un mejor desempeño respecto al de Washington en términos de eficiencia y parsimonia. Es decir, captura de manera más adecuada la dinámica temporal de la serie, con menor complejidad relativa.
En cuanto al error medio absoluto vemos que son cercanos a cero, indicando así que hay buena precisión en las predicciones. Aunque la diferencia es pequeña, el modelo de California también muestra un menor error promedio en sus predicciones (MAE=0.202), lo que indica que modela los valores de la serie de forma ligeramente más precisa que el modelo de Washington.
Para complementar el análisis descriptivo y estructural de las series de tiempo, se realizará un ejercicio de pronóstico con el fin de estimar la evolución futura de la tasa de desempleo en California y Washington. Teniendo en cuenta los modelos SARIMA más adecuados para cada serie, se procedió a generar previsiones utilizando las funciones del paquete forecast().
La idea es generar pronósticos para los próximos 36 meses, lo que corresponde a un tiempo de tres años. El objetivo de esta sección es interpretar la tendencia proyectada respecto al comportamiento histórico de cada serie.
#Comparación de la series históricas vs pronóstico
| Meses | Observado | Pronosticado |
|---|---|---|
| 1 | 1.17931034 | 1.41640210 |
| 2 | 0.02758621 | 0.20376600 |
| 3 | -0.27068966 | 0.14628238 |
| 4 | -0.57931034 | -0.96198146 |
| 5 | -0.62931034 | -0.41567900 |
| 6 | 0.28275862 | 0.40150899 |
| 7 | 0.36896552 | 0.16941929 |
| 8 | -0.46034483 | -0.41576815 |
| 9 | -0.18275862 | -0.16215917 |
| 10 | 0.22931034 | 0.46920746 |
| 11 | 0.66206897 | 0.80715429 |
| 12 | 0.64827586 | 0.48016608 |
| 13 | 1.09482759 | 1.34718032 |
| 14 | -0.10862069 | 0.11384512 |
| 15 | 0.13965517 | 0.08673107 |
| 16 | -0.95862069 | -0.94226934 |
| 17 | -0.14310345 | -0.48775969 |
| 18 | 0.38275862 | 0.36321576 |
| 19 | 0.43275862 | 0.16775935 |
| 20 | -0.13275862 | -0.43186720 |
| 21 | -0.17586207 | -0.18266620 |
| 22 | 0.57068966 | 0.39990473 |
| 23 | 1.17758621 | 0.85773764 |
| 24 | 0.73448276 | 0.43188383 |
| 25 | 1.64310345 | 1.31719197 |
| 26 | 0.43103448 | 0.07818532 |
| 27 | 0.29310345 | 0.06066115 |
| 28 | -1.08103448 | -0.94413754 |
| 29 | -0.22413793 | -0.51667135 |
| 30 | 0.48275862 | 0.34483746 |
| 31 | 0.13103448 | 0.16074285 |
| 32 | -0.40344828 | -0.44283661 |
| 33 | -0.13275862 | -0.19460600 |
| 34 | 0.66379310 | 0.37368387 |
| 35 | 0.60344828 | 0.86772460 |
| 36 | 0.60862069 | 0.41256112 |
| Meses | Observado | Pronosticado |
|---|---|---|
| 1 | 1.09487179 | 1.28370366 |
| 2 | -0.19743590 | 0.31849724 |
| 3 | -0.82564103 | -0.52051218 |
| 4 | -0.46153846 | -0.64214564 |
| 5 | -0.47948718 | -0.23616763 |
| 6 | -0.41538462 | -0.19837523 |
| 7 | 0.02820513 | -0.21216207 |
| 8 | 0.01025641 | 0.32092433 |
| 9 | -0.29230769 | -0.25797735 |
| 10 | -0.05384615 | 0.02358938 |
| 11 | 0.99487179 | 0.98490946 |
| 12 | 0.82564103 | 0.93586036 |
| 13 | 0.70512821 | 1.24213453 |
| 14 | 0.21538462 | 0.21356272 |
| 15 | -0.71538462 | -0.58443048 |
| 16 | -0.73076923 | -0.65219803 |
| 17 | 0.02051282 | -0.26209135 |
| 18 | -0.26666667 | -0.22701246 |
| 19 | -0.22820513 | -0.21024606 |
| 20 | 0.20512821 | 0.27952210 |
| 21 | -0.46410256 | -0.31805846 |
| 22 | 0.25641026 | 0.02748173 |
| 23 | 0.98974359 | 1.00892799 |
| 24 | 1.10769231 | 0.89897356 |
| 25 | 1.78717949 | 1.25483192 |
| 26 | 0.62564103 | 0.20621769 |
| 27 | -0.22051282 | -0.58443048 |
| 28 | -0.61025641 | -0.65219803 |
| 29 | -0.05384615 | -0.26209135 |
| 30 | -0.05897436 | -0.22701246 |
| 31 | -0.23076923 | -0.21024606 |
| 32 | 0.52051282 | 0.27952210 |
| 33 | 0.01282051 | -0.31805846 |
| 34 | 0.04358974 | 0.02748173 |
| 35 | 0.86410256 | 1.00892799 |
| 36 | 1.15384615 | 0.89897356 |
Además del estudio de las tasas de desempleo en California y Washington, este capítulo integra el análisis de otras dos series temporales correspondientes a la ciudad de Valledupar: la Temperatura Promedio Mensual y la Temperatura Máxima Mensual.
Estas series fueron procesadas siguiendo el mismo flujo metodológico aplicado a las tasas de desempleo, con el propósito de mantener coherencia analítica y permitir comparaciones entre dinámicas temporales de diferente naturaleza.
Incluir estas dos series adicionales permite extender el alcance del estudio, mostrando cómo el mismo conjunto de herramientas estadísticas puede adaptarse tanto a indicadores socioeconómicos como a variables ambientales.
El conjunto de datos utilizado en este parte corresponde al registro histórico de temperatura del aire en el municipio de Valledupar (Cesar, Colombia), proveniente del portal oficial de datos abiertos del Gobierno de Colombia: Temperatura Ambiente del Aire – datos.gov.co (https://www.datos.gov.co/Ambiente-y-Desarrollo-Sostenible/Temperatura-Ambiente-del-Aire/sbwg-7ju4/about_data ).
El dataset original está conformado por 828,369 observaciones y 13 variables, que contienen información detallada de la temperatura medida por la estación meteorológica FEDEARROZ – AUT. A continuación, se describen de forma general las variables incluidas:
CodigoEstacion (numérico): Identificador de la estación meteorológica.
CodigoSensor (entero): Código del sensor de medición.
FechaObservacion (carácter): Fecha y hora del registro en formato “YYYY MM DD HH:MM:SS”.
Ano (entero): Año de la observación (2015–2024).
Mes (carácter): Mes de la observación en español.
ValorObservado (numérico): Temperatura del aire en °C. (Variable principal del análisis)
NombreEstacion (carácter): Nombre de la estación (FEDEARROZ – AUT).
Departamento (carácter): Departamento donde se ubica la estación (Cesar).
Municipio (carácter): Municipio (Valledupar).
ZonaHidrografica (carácter): Zona hidrográfica asociada.
Latitud (numérico): Coordenada en grados decimales.
Longitud (numérico): Coordenada en grados decimales.
DescripcionSensor (carácter): Descripción del tipo de sensor (Temperatura aire 2 m).
Durante la exploración inicial se identificó que la variable ValorObservado contenía valores atípicamente bajos, tales como 0, 0.5, 0.9, etc., que no son coherentes con la temperatura mínima real registrada para el municipio de Valledupar.
Con base en la literatura climatológica y en registros históricos, se estableció un umbral mínimo razonable de 16 °C, por lo que se aplicó el filtro a los datos teniendo en cuenta ese criterio.
Después de aplicar dicho criterio de depuración, el conjunto de datos final quedó conformado por 539,447 observaciones, manteniendo las mismas 13 variables originales.
En ese sentido, el presente estudio abarca 10 años de información (2015–2024), con registros que posteriormente fueron agregados para construir dos series mensuales:
Temperatura promedio mensual
Temperatura máxima mensual
Estas dos series son las que se utilizarán para el análisis descriptivo, diagnóstico, modelamiento SARIMA y posterior generación de previsiones.
A continuación, se presentan estadísticas básicas y visualizaciones como histogramas, curvas de densidad, diagramas de caja (boxplots) y gráficos de dispersión.
## Rows: 539,447
## Columns: 13
## $ CodigoEstacion <dbl> 28035060, 28035060, 28035060, 28035060, 28035060, 28…
## $ CodigoSensor <int> 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, …
## $ FechaObservacion <chr> "2015 ene 01 12:00:00 AM", "2015 ene 01 01:00:00 AM"…
## $ Ano <int> 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015…
## $ Mes <chr> "enero", "enero", "enero", "enero", "enero", "enero"…
## $ ValorObservado <dbl> 27.6, 27.2, 27.0, 27.0, 27.0, 27.0, 26.5, 27.3, 29.1…
## $ NombreEstacion <chr> "FEDEARROZ - AUT", "FEDEARROZ - AUT", "FEDEARROZ - A…
## $ Departamento <chr> "CESAR", "CESAR", "CESAR", "CESAR", "CESAR", "CESAR"…
## $ Municipio <chr> "VALLEDUPAR", "VALLEDUPAR", "VALLEDUPAR", "VALLEDUPA…
## $ ZonaHidrografica <chr> "CESAR", "CESAR", "CESAR", "CESAR", "CESAR", "CESAR"…
## $ Latitud <dbl> 10.46361, 10.46361, 10.46361, 10.46361, 10.46361, 10…
## $ Longitud <dbl> -73.24806, -73.24806, -73.24806, -73.24806, -73.2480…
## $ DescripcionSensor <chr> "Temp Aire 2 m", "Temp Aire 2 m", "Temp Aire 2 m", "…
| temperatura | |
|---|---|
| nbr.val | 539447.00 |
| nbr.null | 0.00 |
| nbr.na | 0.00 |
| min | 16.00 |
| max | 49.60 |
| range | 33.60 |
| sum | 15373821.20 |
| median | 27.70 |
| mean | 28.50 |
| SE.mean | 0.01 |
| CI.mean.0.95 | 0.01 |
| var | 15.75 |
| std.dev | 3.97 |
| coef.var | 0.14 |
De acuerdo a las medidas descriptivas de la tabla anterior, podemos entender la temperatura promedio en Valledupar durante el periodo estudiado es de 28.5 °C, lo que coincide con el clima cálido característico de la región. La mediana resultó ligeramente menor que la media, lo que sugiere una leve asimetría hacia valores altos, probablemente causada por días o meses particularmente calurosos que elevan el promedio.
El rango amplio (33.6 °C) evidencia la alta variabilidad térmica presente en los datos, en particular por la existencia de valores extremos como los máximos cercanos a 50 °C, que podrían corresponder a momentos del día con fuerte radiación solar.
La desviación estándar de aprox. 4 °C confirma la presencia de oscilaciones importantes, pero dentro de un nivel esperado para series de temperatura de alta frecuencia (horaria). Por su parte, el error estándar muy pequeño implica que la media poblacional se encuentra prácticamente en el mismo valor estimado, reforzando la estabilidad global de la temperatura promedio en el periodo analizado.
| Ano | Mes | Temp_prom | Temp_max | n_obs |
|---|---|---|---|---|
| 2015 | enero | 29.25296 | 36.6 | 744 |
| 2015 | febrero | 29.82440 | 37.9 | 672 |
| 2015 | marzo | 30.27930 | 39.0 | 744 |
| 2015 | abril | 30.46625 | 40.2 | 720 |
| 2015 | mayo | 30.35108 | 39.7 | 744 |
| 2015 | junio | 31.76806 | 42.2 | 720 |
| 2015 | julio | 31.44694 | 42.2 | 735 |
| 2015 | agosto | 31.19099 | 42.0 | 744 |
| 2015 | septiembre | 30.58458 | 40.1 | 720 |
| 2015 | octubre | 29.18374 | 39.6 | 744 |
| 2015 | noviembre | 28.74028 | 36.9 | 720 |
| 2015 | diciembre | 30.18683 | 38.1 | 744 |
| 2016 | enero | 29.82312 | 38.8 | 744 |
| 2016 | febrero | 30.76638 | 41.0 | 696 |
| 2016 | marzo | 31.43159 | 42.1 | 744 |
| 2016 | abril | 30.61153 | 41.0 | 720 |
| 2016 | mayo | 30.05121 | 41.0 | 744 |
| 2016 | junio | 30.25361 | 40.4 | 720 |
| 2016 | julio | 31.64979 | 49.6 | 1171 |
| 2016 | agosto | 30.88980 | 49.2 | 1324 |
| 2016 | septiembre | 29.53582 | 45.6 | 966 |
| 2016 | octubre | 27.84096 | 38.6 | 1482 |
| 2016 | noviembre | 27.11540 | 34.8 | 1175 |
| 2016 | diciembre | 28.57474 | 35.7 | 1156 |
Estadísticos descriptivos
##
## Correlación Temp max - Temp prom: 0.653
Este valor de correlación 0.65 indica que hay una relación positiva moderada entre ambos tipo de temperatura, donde tienden a incrementar juntas.
| Serie | Observaciones | Media | Mediana | SD | Min | Max | Var | Rango |
|---|---|---|---|---|---|---|---|---|
| Temperatura Promedio | 120 | 28.69 | 28.62 | 1.42 | 25.49 | 31.95 | 2.02 | 6.46 |
| Temperatura Máxima | 120 | 38.53 | 38.40 | 2.34 | 34.20 | 49.60 | 5.50 | 15.40 |
Con base a los resultados obtenidos en la tabla anterior, tenemos que la temperatura promedio mensual registra un valor medio de 28.69 °C con una mediana prácticamente igual (28.62 °C), lo que demuestra una distribución relativamente simétrica. Su variabilidad es baja (SD = 1.42), indicando que la temperatura promedio no fluctúa de forma marcada entre meses. Además, el rango es moderado (6.46 °C), con valores que van desde 25.49 °C hasta 31.95 °C.
En contraste, la temperatura máxima mensual presenta, como es esperable, valores más altos y una mayor dispersión. La media se ubica en 38.53 °C y la mediana en 38.40 °C, con una desviación estándar de 2.34, reflejando variaciones mensuales más pronunciadas que las observadas en la temperatura promedio. Su rango (15.40 °C) también es más amplio, con valores entre 34.20 °C y 49.60 °C, lo cual evidencia que los picos de calor pueden diferir de manera considerable a lo largo del año.
El histograma de la temperatura promedio mensual muestra una distribución aproximadamente simétrica concentrada entre 27°C y 30°C, con una mayor frecuencia alrededor de 28°C. La forma suave de la curva de densidad indica que la distribución tiende a ser ligeramente mesocúrtica, sin colas extremas pronunciadas.
Se observa además que los valores muy bajos o muy altos son poco frecuentes, lo que sugiere que la temperatura promedio del aire en Valledupar se mantiene relativamente estable a lo largo de los meses y años.
El histograma de la temperatura máxima mensual presenta una distribución más asimétrica hacia la derecha, con un mayor número de observaciones entre 37°C y 40°C, donde se alcanza el pico de densidad. Esto indica que estas temperaturas máximas son las más comunes en Valledupar. Sin embargo, se destaca la presencia de algunos valores atípicos o extremos entre 45–50°C. Estos picos altos suelen corresponder a eventos de calor intenso, probablemente asociados a condiciones climáticas como temporadas secas o episodios de radiación solar elevada.
En general, esta distribución evidencia que la variabilidad en las temperaturas máximas es mayor que en la temperatura promedio, mostrando episodios más elevados.
En términos generales el boxplot permite observar cómo se ha comportado la temperatura promedio mensual del aire, por ejemplo, entre 2015 y 2016, los valores promedio son relativamente altos, con medianas cercanas a los 30 °C, mostrando años más cálidos.
A partir de 2017 hasta 2021, los valores de temperatura promedio descienden ligeramente y muestran una mayor estabilidad, con medianas alrededor de 28–29 °C.
En 2022 se observa el año más frío del período analizado, con una mediana cercana a 27 °C, y Durante los 2 últimos años, las temperaturas parecen recuperarse, retornando a niveles similares a los de 2015–2016.
En cuanto a la temperatura máxima promedio mensual se evidencia que el año 2016 se destaca claramente por tener las temperaturas máximas más elevadas, con un rango amplio y un valor extremo cercano a 50 °C, lo que evidencia un evento climático inusualmente intenso. Entre 2017 y 2021, las máximas se estabilizan y muestran oscilaciones entre 37 y 40 °C, con menor variabilidad.
En 2022 se alcanza el nivel más bajo dentro de la serie, con una mediana por debajo de 37 °C.
Para 2023 y 2024, las temperaturas máximas vuelven a aumentar levemente, mostrando una posible tendencia al alza. Además, se observan valores mínimos atípicos especialmente en 2019 y 2024, sugiriendo episodios de temperaturas máximas inusualmente bajas. Mientras que en 2016 se presenta un valor más atípico de toda la serie.
A partir del gráfico de dispersión se aprecia una asociación directa y estable entre ambas variables, coherente con el comportamiento esperado en series climatológicas.
El mapa de calor muestra la evolución anual y mensual de la temperatura promedio del aire en Valledupar durante el período 2015–2024. Por ejemplo, los meses de junio, julio y agosto presentan los valores más altos de temperatura promedio, mientras que en enero, febrero, noviembre y diciembre suelen registrar temperaturas más moderadas.
Así mismo, se evidencia que hay una mayor variabilidad entre años que entre los meses.
Por su parte, el mapa de calor de la temperatura máxima mensual nos muestra que los meses más cálidos son julio, agosto y septiembre en los años 2015 y 2016 respectivamente. En comparación con las temperaturas promedios se da una variación más alta.
En esta sección se realiza el análisis conjunto de las dos series de tiempo: la Temperatura Promedio Mensual del Aire y la Temperatura Máxima Mensual registradas en Valledupar. El objetivo es examinar su comportamiento temporal, identificar posibles tendencias, patrones estacionales y relaciones entre ambas variables. Para luego establecer el planteamiento y comparación de modelos ARIMA o SARIMA que permitan realizar pronósticos confiables.
Serie Temporal de Temperatura promedio mensual en Valledupar
A continuación se muestran los datos respectivos de dicha serie:
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 29.25 29.82 30.28 30.47 30.35 31.77 31.45 31.19 30.58 29.18 28.74 30.19
## 2016 29.82 30.77 31.43 30.61 30.05 30.25 31.65 30.89 29.54 27.84 27.12 28.57
## 2017 28.39 29.31 29.09 29.74 28.65 28.88 28.99 28.30 27.60 28.07 27.59 28.82
## 2018 28.27 29.02 29.48 28.95 27.87 29.53 30.48 29.88 28.14 27.42 28.37 28.48
## 2019 28.58 29.39 28.65 30.97 29.55 30.14 30.71 27.93 27.32 25.49 26.48 27.52
## 2020 27.90 28.83 29.04 28.85 28.13 27.34 27.13 27.36 28.09 27.53 26.98 28.38
## 2021 28.60 28.90 29.39 28.54 28.59 27.87 28.89 27.64 27.63 26.78 26.87 27.37
## 2022 27.97 28.25 28.76 27.05 27.41 26.38 27.79 26.78 25.96 25.76 25.72 26.53
## 2023 26.45 27.44 25.90 28.60 29.08 30.66 31.95 30.00 29.92 27.82 28.08 29.09
## 2024 29.79 29.23 30.47 30.63 28.92 28.15 29.63 28.93 28.38 27.98 26.76 28.06
Serie Temporal de Temperatura máxima mensual en Valledupar
De igual manera, los datos de la Serie Temperatura máxima:
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 36.6 37.9 39.0 40.2 39.7 42.2 42.2 42.0 40.1 39.6 36.9 38.1
## 2016 38.8 41.0 42.1 41.0 41.0 40.4 49.6 49.2 45.6 38.6 34.8 35.7
## 2017 37.6 38.4 38.5 40.1 39.7 39.6 37.8 36.8 35.9 38.3 35.8 36.7
## 2018 36.8 37.5 40.8 37.9 37.2 38.6 40.0 40.7 37.5 35.6 36.2 37.4
## 2019 38.9 39.3 39.4 40.0 39.7 38.6 39.8 39.2 39.8 36.2 37.2 37.9
## 2020 39.2 40.3 40.8 40.2 39.6 38.8 39.1 39.5 36.7 35.7 34.2 35.0
## 2021 36.7 38.2 37.5 37.5 38.1 36.9 39.2 37.7 36.8 35.9 36.6 37.2
## 2022 37.6 38.9 38.3 37.8 37.0 36.2 37.2 38.4 35.5 36.1 34.4 36.6
## 2023 37.2 39.5 40.1 35.6 38.7 38.0 41.5 39.5 39.4 37.8 36.4 36.5
## 2024 38.4 39.2 39.8 40.8 38.3 37.7 38.4 38.4 38.9 36.7 36.2 39.0
Como se puede observar los registros de la temperatura promedio en cada año suelen tener ciclos de tendencia a la alza y a la baja, donde los picos más altos ocurren al principio y al final del periodo de tiempo. La temperatura media más alta se dió en el año 2023.
Para el caso de esta serie también es visible el patrón cíclico anual, donde logra entenderse que hay mayor pronunciamiento en los meses de verano que los de invierno. Así mismo, se evidencia que la mayor temperatura se dió entre los meses de 2016 y 2017 respectivamente.
En cuanto al análisis de la FAC, se muestra una disminución lenta y progresiva de los coeficientes a medida que aumenta el rezago. Este comportamiento es característico de series que presentan tendencia o un componente no estacionario, lo que se traduce en una alta persistencia entre observaciones cercanas en el tiempo.
Por otro lado, ocurre un pico significativo en el primer rezago, seguido de valores considerablemente más pequeños en los rezagos posteriores. Este patrón sugiere una estructura predominantemente autoregresiva, compatible con un proceso similar a un AR(1).
Para el caso de la temperatura máxima, se tiene que la FAC presenta varios rezagos que sobrepasan la bandas del nivel de confianza, reflejando así que no se cumple la estacionariedad en los datos.
La FACP permite interpretar que hay que decaimiento a partir del rezago 2 o 3, esto quiere decir que puede haber un componente autorregresivo relativo con esos valores.
Serie de la temperatura promedio mensual
Serie de la temperatura máxima mensual
##
## KPSS Test for Level Stationarity
##
## data: serie_temp
## KPSS Level = 0.78645, Truncation lag parameter = 4, p-value = 0.01
##
## KPSS Test for Level Stationarity
##
## data: serie_max
## KPSS Level = 0.57309, Truncation lag parameter = 4, p-value = 0.0252
Con base a las hipótesis planteadas previamente de la prueba KPSS y observando que los p-valor obtenidos de cada una de las Series es menor que el nivel de significancia 0.05, por lo tanto, se rechaza \(H_0\) y se dice que no son estacionarias.
En ese sentido con la función ndiffs() podemos saber cuántas diferenciaciones debemos aplicar para volver a cada Serie estacionaria.
## Número de diferencias para la Serie Temp promedio: 1
## Número de diferencias para la Serie Temp máxima: 1
Debido a que ambas series originales presentan comportamiento no estacionario, se aplicará una diferenciación de primer orden. Este procedimiento permite remover la tendencia y estabilizar la media, con el fin de obtener series estacionarias que sean apropiadas para el ajuste de modelos ARIMA o SARIMA.
Con el fin de validar que cada una de las Series se han vuelto estacionarias, volvemos a realizar la prueba KPSS a las Series ya diferenciadas.
##
## KPSS Test for Level Stationarity
##
## data: st_temp
## KPSS Level = 0.024045, Truncation lag parameter = 4, p-value = 0.1
##
## KPSS Test for Level Stationarity
##
## data: st_max
## KPSS Level = 0.030505, Truncation lag parameter = 4, p-value = 0.1
Efectivamente, los p-values obtenidos nuevamente en la prueba KPSS para ambas series son de 0.1, valores superiores al nivel de significancia de 0.05. Esto implica que no se rechaza la hipótesis nula de estacionariedad, por lo que podemos afirmar que las series diferenciadas cumplen ahora con este requisito.
A continuación se pueden visualizar las series diferenciadas:
Al observar las series después de la diferenciación, se aprecia que oscilan alrededor de un valor cercano a cero, lo que indica que la media se ha estabilizado. Asimismo, la dispersión de los valores a lo largo del tiempo parece mantenerse relativamente uniforme, sugiriendo que la varianza es aproximadamente constante.
FUnciones de Autocorrelación - Series diferenciadas
Es completamente evidente que una vez aplicada la diferenciación a las series originales se logra alcanzar que la mayoría de los rezagos de la FAC y FACP se estabilizan, indicando que para los modelos posibles de ARIMA o SARIMA sean ajustados por medio de órdenes pequeños y moderados.
## Series: st_temp
## ARIMA(0,0,4) with zero mean
##
## Coefficients:
## ma1 ma2 ma3 ma4
## -0.2269 -0.0702 -0.3092 -0.1950
## s.e. 0.0933 0.0897 0.1004 0.0888
##
## sigma^2 = 0.8497: log likelihood = -157.62
## AIC=325.24 AICc=325.77 BIC=339.14
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -0.05398426 0.9061891 0.741948 118.4316 152.1878 0.836372
## ACF1
## Training set -0.009120172
#Análisis de los residuos del Modelo ARIMA(0,0,4)
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,4) with zero mean
## Q* = 24.317, df = 20, p-value = 0.2288
##
## Model df: 4. Total lags used: 24
##
## Shapiro-Wilk normality test
##
## data: m_st_temp$residuals
## W = 0.98698, p-value = 0.3123
##
## KPSS Test for Level Stationarity
##
## data: m_st_temp$residuals
## KPSS Level = 0.12895, Truncation lag parameter = 4, p-value = 0.1
Prueba de Ljung-Box: El p-value = 0.2288 > 0.05 indica que no hay evidencia de autocorrelación significativa en los residuos. Esto sugiere que el modelo logra capturar adecuadamente la dependencia temporal de la serie.
Shapiro-Wilk: El p-value = 0.3123 > 0.05 muestra que no se rechaza la normalidad de los residuos. Aunque la normalidad no es obligatoria para ARIMA, es un buen indicador de que el ajuste no presenta distorsiones severas.
KPSS: Con un p-value = 0.1 (mayor al nivel de significancia habitual 0.05), no se rechaza la hipótesis nula de estacionariedad en los residuos, indicando que el modelo ha eliminado adecuadamente cualquier tendencia o estructura no estacionaria.
En conclusión, el ARIMA(0,0,4) presenta residuos no autocorrelacionados, aproximadamente normales y estacionarios; por lo tanto, su ajuste es adecuado para la serie de temperatura promedio. Todo esto se refuerza con la compresión de los gráficos mostrados.
## Series: st_max
## ARIMA(1,0,4) with zero mean
##
## Coefficients:
## ar1 ma1 ma2 ma3 ma4
## -0.7526 0.6048 -0.2722 -0.5759 -0.5907
## s.e. 0.1066 0.1092 0.0831 0.0882 0.0725
##
## sigma^2 = 2.531: log likelihood = -222.79
## AIC=457.57 AICc=458.32 BIC=474.25
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set -0.07717333 1.557083 1.122635 NaN Inf 0.6253094 0.02666473
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,4) with zero mean
## Q* = 23.209, df = 19, p-value = 0.2282
##
## Model df: 5. Total lags used: 24
##
## Shapiro-Wilk normality test
##
## data: m_st_max$residuals
## W = 0.90839, p-value = 5.924e-07
##
## KPSS Test for Level Stationarity
##
## data: m_st_max$residuals
## KPSS Level = 0.14153, Truncation lag parameter = 4, p-value = 0.1
Ljung-Box: El p-value = 0.2282 > 0.05 indica que no hay autocorrelación significativa en los residuos, lo cual valida el ajuste del modelo.
Shapiro-Wilk: El p-value = 5.9e-07 < 0.05 evidencia una fuerte desviación de la normalidad. Esto sugiere que los residuos no siguen una distribución normal, probablemente debido a valores extremos o asimetría. No invalida el modelo, pero es una advertencia sobre el comportamiento de los errores.
KPSS: Con p-value = 0.1, no se rechaza la hipótesis nula de estacionariedad. Esto indica que los residuos no presentan tendencias no explicadas por el modelo.
En conclusión el ARIMA(1,0,4) captura adecuadamente la estructura temporal de la serie de temperatura máxima y genera residuos estacionarios y no autocorrelacionados, aunque no normales, lo cual puede estar asociado a picos altos en la temperatura máxima como se observa en el anterior gráfico Q-Q plot.
## Series: st_temp
## ARIMA(0,0,3)(2,0,0)[12] with zero mean
##
## Coefficients:
## ma1 ma2 ma3 sar1 sar2
## -0.3179 0.0215 -0.3237 0.1972 0.3012
## s.e. 0.0942 0.1136 0.1046 0.0911 0.1053
##
## sigma^2 = 0.7668: log likelihood = -152.38
## AIC=316.76 AICc=317.51 BIC=333.43
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -0.0002295401 0.8570729 0.6604482 86.22668 121.8745 0.7445002
## ACF1
## Training set 0.04952033
## Series: st_max
## ARIMA(0,0,3)(2,0,0)[12] with zero mean
##
## Coefficients:
## ma1 ma2 ma3 sar1 sar2
## -0.3120 -0.0501 -0.5215 0.0813 0.3545
## s.e. 0.0841 0.1079 0.0934 0.0852 0.1218
##
## sigma^2 = 2.452: log likelihood = -222.07
## AIC=456.14 AICc=456.89 BIC=472.81
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 0.02017017 1.532635 1.149052 NaN Inf 0.6400237 0.07688629
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,3)(2,0,0)[12] with zero mean
## Q* = 13.812, df = 19, p-value = 0.7945
##
## Model df: 5. Total lags used: 24
##
## Shapiro-Wilk normality test
##
## data: fit_temp$residuals
## W = 0.99098, p-value = 0.6301
##
## KPSS Test for Level Stationarity
##
## data: fit_temp$residuals
## KPSS Level = 0.056861, Truncation lag parameter = 4, p-value = 0.1
Ljung-Box: El p-value = 0.7945 > 0.05) indica que no existe autocorrelación significativa en los residuos, evidenciando que son ruido blanco.
Shapiro-Wilk: El p-value = 0.6301 > 0.05 muestra que no se rechaza la normalidad de los residuos, lo que indica una distribución bastante regular sin colas extremas relevantes.
KPSS: Con p-value = 0.1, no se rechaza la hipótesis nula de estacionariedad, lo cual sugiere que el modelo eliminó correctamente cualquier estructura no estacionaria presente.
Por lo tanto, el modelo SARIMA ajustado a la temperatura promedio presenta residuos que cumplen con los supuestos comunes, por lo que su ajuste es estadísticamente adecuado.
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,3)(2,0,0)[12] with zero mean
## Q* = 20.322, df = 19, p-value = 0.3754
##
## Model df: 5. Total lags used: 24
##
## Shapiro-Wilk normality test
##
## data: fit_max$residuals
## W = 0.92106, p-value = 3.02e-06
##
## KPSS Test for Level Stationarity
##
## data: fit_max$residuals
## KPSS Level = 0.12731, Truncation lag parameter = 4, p-value = 0.1
| Modelo | AIC | BIC | RMSE | MAE |
|---|---|---|---|---|
| ARIMA - Temp Promedio | 325.24 | 339.14 | 0.85 | 0.74 |
| SARIMA - Temp Promedio | 316.76 | 333.43 | 0.77 | 0.66 |
| ARIMA - Temp Máxima | 457.57 | 474.25 | 2.53 | 1.12 |
| SARIMA - Temp Máxima | 456.14 | 472.81 | 2.45 | 1.15 |
Al comparar los modelos ARIMA y SARIMA para ambas series (temperatura promedio y temperatura máxima), se observa que los modelos SARIMA presentan en general un mejor desempeño, especialmente para la serie de temperatura promedio. Esto se evidencia en valores menores de AIC y BIC, lo que indica un mejor equilibrio entre ajuste y complejidad del modelo.
En cuanto a las métricas de error, como RMSE y MAE, los modelos SARIMA también muestran valores más bajos para ambas series, lo cual refleja menores errores de predicción.
Para entender mejor esas estadísticas tenemos como complemento las siguientes gráficas y tablas de las previsiones realizadas con la función forecast a un nivel de confianza del 95%.
#Comparación de la series históricas vs pronóstico
| Meses | Observado | Pronosticado |
|---|---|---|
| 1 | -0.08 | -0.01246875 |
| 2 | 0.99 | 0.62173062 |
| 3 | -1.54 | -0.28331698 |
| 4 | 2.70 | 0.84485512 |
| 5 | 0.48 | -0.19260313 |
| 6 | 1.58 | 0.32409969 |
| 7 | 1.29 | 0.68041668 |
| 8 | -1.95 | -0.72541831 |
| 9 | -0.08 | -0.13255108 |
| 10 | -2.10 | -0.71144566 |
| 11 | 0.26 | -0.16225054 |
| 12 | 1.01 | 0.56058017 |
| 13 | 0.70 | 0.20839820 |
| 14 | -0.56 | -0.04608797 |
| 15 | 1.24 | 0.31765132 |
| 16 | 0.16 | 0.21479077 |
| 17 | -1.71 | -0.55307218 |
| 18 | -0.77 | -0.16803415 |
| 19 | 1.48 | 0.57998139 |
| 20 | -0.70 | -0.35390034 |
| 21 | -0.55 | -0.19181069 |
| 22 | -0.40 | -0.26077787 |
| 23 | -1.22 | -0.39948721 |
| 24 | 1.30 | 0.50213078 |
| Meses | Observado | Pronosticado |
|---|---|---|
| 1 | 0.6 | 0.314329834 |
| 2 | 2.3 | 1.034602206 |
| 3 | 0.6 | -1.001398946 |
| 4 | -4.5 | -1.514028117 |
| 5 | 3.1 | 0.895790973 |
| 6 | -0.7 | -0.296926650 |
| 7 | 3.5 | 1.297690438 |
| 8 | -2.0 | -0.709025600 |
| 9 | -0.1 | 0.005188461 |
| 10 | -1.6 | -0.746035342 |
| 11 | -1.4 | -0.536957661 |
| 12 | 0.1 | 0.263033832 |
| 13 | 1.9 | 0.699122886 |
| 14 | 0.8 | 0.367702172 |
| 15 | 0.6 | 0.131314492 |
| 16 | 1.0 | 0.231453378 |
| 17 | -2.5 | -0.813472573 |
| 18 | -0.6 | -0.236841725 |
| 19 | 0.7 | 0.353634568 |
| 20 | 0.0 | -0.057629234 |
| 21 | 0.5 | 0.177678115 |
| 22 | -2.2 | -0.840565527 |
| 23 | -0.5 | -0.220900041 |
| 24 | 2.8 | 1.014015094 |
Con base a los resultados de las tablas se evidencia que los modelos ajustados logran capturar adecuadamente la dirección y magnitud general de las variaciones mensuales, mostrando una correspondencia razonable entre ambas series.
En la mayoría de los meses, los pronósticos mantienen el mismo sentido (aumento o disminución) que los valores observados y presentan diferencias moderadas, lo cual indica que los modelos poseen buena capacidad para reproducir el comportamiento global de las series. Sin embargo, se observan algunos meses en los que las diferencias son mayores, especialmente en la serie de temperatura máxima, reflejando que esta variable presenta una variabilidad más alta y episodios de valores extremos, lo cual dificulta una predicción completamente precisa.
Ravaliya, J. (2016). US Unemployment Rate by County, 1990-2016. Kaggle.com. https://www.kaggle.com/datasets/jayrav13/unemployment-by-county-us/discussion?sort=undefined
Archila, E., Herrera, F., Suarez, H., Bermudez, D., & Cruz, A. (2023). Modelo lineal dinámico para estimar la tasa de desempleo en Bogotá DC. Comunicaciones en Estadística, 16(1), 73-86.
Tróchez González, J., & Valencia Cárdenas, M. (2014). Análisis de series temporales en el sector lácteo de Antioquia para detectar efectos de la apertura comercial. Revista Investigaciones Aplicadas
Nurkholis, Z. (2023). A Practical Guide to ARIMA with auto.arima Function in R. Medium. https://medium.com/@mouse3mic3/a-practical-guide-to-arima-with-auto-arima-function-in-r-252aa84232af
Cerón, J. (2023). RPubs - Aplicación modelo ARIMA. Rpubs.com. https://rpubs.com/stefens07/Arima
Bobbitt, Z. (2020). Ljung-Box test: Definition + example. Statology. https://www.statology.org/ljung-box-test/
Cerón, J. (2025). RPubs - Extracción de Señales y ARIMA. Rpubs.com. https://rpubs.com/stefens07/Arima_Micro
Ayllón Benítez, J. C. (2021). Análisis y predicción de la serie de tiempo del Índice Nacional de Precios al Consumidor (INPC) de México (Doctoral dissertation). http://193.122.196.39:8080/xmlui/handle/10521/4671
Ospino, J. O., & Granados, C. G. (2019). Evaluación del desempeño térmico de un prototipo con chimenea solar e intercambiador tierra-aire. REVISTA COLOMBIANA DE TECNOLOGIAS DE AVANZADA (RCTA), 1(33), 50-55.