knitr::opts_chunk$set(fig.show = "asis", echo = FALSE,message = F,warning = F)

Capítulo 1

ANÁLISIS DEL DESEMPLEO EN LOS ESTADOS DE CALIFORNIA Y WHASHINGTOON. EE.UU 1992-2009

Introducción

El desempleo constituye uno de los indicadores más relevantes para evaluar la situación económica de un país. En este trabajo se analiza la evolución de la tasa de desempleo en los Estados Unidos durante el período 1992–2009, con el propósito de identificar tendencias y comportamientos temporales a nivel estatal mediante técnicas de análisis de series de tiempo.

Justificación de la elección de la base de datos

La elección de esta base de datos se fundamenta principalmente en su adecuación para el análisis de series de tiempo, dado que contiene una variable temporal explícita que permite estudiar la evolución de un indicador laboral anual.

Además, se consideró un conjunto de datos de estructura sencilla, compuesto por un número reducido de variables, lo cual facilita la comprensión, manipulación y modelación de la información sin perder relevancia analítica.

El tema del desempleo resulta social y económicamente relevante, permitiendo explorar comportamientos de interés como la tendencia, estacionariedad y variaciones en la tasa de desempleo en el contexto de Estados Unidos durante el periodo 1992–2009.

Descripción de la base de datos

El conjunto de datos utilizado corresponde a los registros del desempleo en Estados Unidos durante el periodo comprendido entre 1990 y 2016. Fue obtenido del repositorio público Kaggle en el siguiente enlace: 🔗 Unemployment by County — US.

Este conjunto de datos fue creado por Jay Ravaliya, quien recopiló la información directamente de la Oficina de Estadísticas Laborales del Departamento de Trabajo de los Estados Unidos (Bureau of Labor Statistics, BLS).

La base de datos original contiene un total de 885.548 observaciones y está compuesta por cinco variables, de las cuales dos son numéricas y tres categóricas, distribuidas de la siguiente manera:

Variables numéricas:

Rate: tasa de desempleo (%).
Year: año correspondiente a cada observación.

Variables categóricas:

Month: contiene cada mes de las observaciones.
State: contiene cada estado de las observaciones.
County: contiene cada condado de las observaciones.

Para el presente estudio, se consideró el periodo 1992–2009, debido a que en este intervalo se encuentran representados todos los meses del año, garantizando así una serie temporal continua y completa. En contraste, en otros años del conjunto original se identificaron vacíos mensuales, los cuales podrían afectar la consistencia del análisis de series de tiempo.

El análisis se centra específicamente en las series temporales de las tasas de desempleo promedio mensual de los estados de California y Washington, las cuales fueron construidas a partir del cálculo del promedio de las tasas registradas en los distintos condados de cada estado para cada mes.

Análisis descriptivo

La base de datos original recopila los registros mensuales de la tasa de desempleo en los Estados Unidos durante el periodo comprendido entre 1990 y 2016.

En total, contiene información correspondiente a 47 estados y 1.752 condados, lo cual permite una visión amplia y detallada de la evolución del desempleo a nivel territorial.

Este conjunto de datos constituye una base sólida para el análisis de series de tiempo, ya que permite estudiar la evolución temporal del desempleo en diferentes regiones del país.

En cuanto a la exploración inicial de los datos, se examinaron las principales características estructurales de la base mediante funciones como glimpse() y head(), lo que permitió verificar el tipo de variables, su formato y las primeras observaciones del conjunto. Posteriormente, se realizó un resumen estadístico de la variable Rate (tasa de desempleo) mediante la función stat.desc(), con el fin de obtener una descripción general de su comportamiento, incluyendo medidas de tendencia central, dispersión y forma.

## Rows: 885,548
## Columns: 5
## $ Year   <dbl> 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 201…
## $ Month  <chr> "February", "February", "February", "February", "February", "Fe…
## $ State  <chr> "Mississippi", "Mississippi", "Mississippi", "Mississippi", "Mi…
## $ County <chr> "Newton County", "Panola County", "Monroe County", "Hinds Count…
## $ Rate   <dbl> 6.1, 9.4, 7.9, 6.1, 10.6, 6.9, 7.9, 14.3, 4.5, 11.1, 11.5, 7.6,…

Primeros 10 Datos de las tasas de desempleo 1990-2016
Year	Month	State	County	Rate
2015	February	Mississippi	Newton County	6.1
2015	February	Mississippi	Panola County	9.4
2015	February	Mississippi	Monroe County	7.9
2015	February	Mississippi	Hinds County	6.1
2015	February	Mississippi	Kemper County	10.6
2015	February	Mississippi	Calhoun County	6.9
2015	February	Mississippi	Clarke County	7.9
2015	February	Mississippi	Jefferson County	14.3
2015	February	Mississippi	Madison County	4.5
2015	February	Mississippi	Sharkey County	11.1

Estadisticos descriptivos de la tasa de desempleo
	tasa (%)
nbr.val	885548.00
nbr.null	17.00
nbr.na	0.00
min	0.00
max	58.40
range	58.40
sum	5468267.50
median	5.50
mean	6.18
SE.mean	0.00
CI.mean.0.95	0.01
var	9.69
std.dev	3.11
coef.var	0.50

De acuerdo al análisis descriptivo de la variable Rate (tasa de desempleo), se evidencia que la tasa de desempleo presenta valores que oscilan entre 0% y 58.4%, con un promedio de 6.18% y una mediana de 5.5%, lo que sugiere una distribución ligeramente asimétrica hacia la derecha. Así mismo, El coeficiente de variación (0.50) indica una variabilidad moderada en la tasa de desempleo entre las distintas observaciones, lo que refleja diferencias significativas entre regiones y períodos. Asimismo, la desviación estándar de 3.11% y la varianza de 9.7% confirman que la dispersión de los datos alrededor de la media no es tan alta.

El intervalo de confianza al 95% para la media es muy estrecho (±0.01), lo que implica una alta precisión en la estimación del promedio general de la tasa de desempleo. Se identificaron 17 valores nulos en la variable Rate, los cuales representan observaciones sin registro de la tasa de desempleo.

En ese sentido pasaremos ahora a filtrar de la base de datos completa, las observaciones que se analizarán en este estudio:

Primeros 15 Datos de las tasas de desempleo 1992-2009 (California)
State	Year	Month	Tasa_Promedio	Fecha
California	1992	January	12.87069	1992-01-01
California	1992	February	13.53793	1992-02-01
California	1992	March	13.00000	1992-03-01
California	1992	April	11.83966	1992-04-01
California	1992	May	11.33621	1992-05-01
California	1992	June	11.81034	1992-06-01
California	1992	July	11.55000	1992-07-01
California	1992	August	10.82931	1992-08-01
California	1992	September	11.00690	1992-09-01
California	1992	October	11.12414	1992-10-01
California	1992	November	12.54483	1992-11-01
California	1992	December	12.96379	1992-12-01
California	1993	January	14.23621	1993-01-01
California	1993	February	14.36034	1993-02-01
California	1993	March	13.60862	1993-03-01

Primeros 15 Datos de las tasas de desempleo 1992-2009 (Washington)
State	Year	Month	Tasa_Promedio	Fecha
Washington	1992	January	11.733333	1992-01-01
Washington	1992	February	12.151282	1992-02-01
Washington	1992	March	10.989744	1992-03-01
Washington	1992	April	9.466667	1992-04-01
Washington	1992	May	8.894872	1992-05-01
Washington	1992	June	8.410256	1992-06-01
Washington	1992	July	8.394872	1992-07-01
Washington	1992	August	8.448718	1992-08-01
Washington	1992	September	7.679487	1992-09-01
Washington	1992	October	8.066667	1992-10-01
Washington	1992	November	9.694872	1992-11-01
Washington	1992	December	10.648718	1992-12-01
Washington	1993	January	13.171795	1993-01-01
Washington	1993	February	12.689744	1993-02-01
Washington	1993	March	11.820513	1993-03-01

Estadísticos descriptivos

## 
##  Correlación California-Washington: 0.8077

Estadísticos Descriptivos - Tasas de Desempleo
Estado	Observaciones	Media	Mediana	SD	Min	Max	Var	Rango
California	216	8.77	8.27	2.27	5.22	14.36	5.14	9.14
Washington	216	7.80	7.56	1.72	5.02	13.17	2.95	8.16

En la Tabla anterior se presentan los principales estadísticos descriptivos de las tasas de desempleo para los estados de California y Washington durante el periodo analizado. En promedio, California registró una tasa de desempleo de 8.77%, ligeramente superior a la de Washington, cuyo promedio fue de 7.80%. Esto indica que, en términos generales, el desempleo ha sido más elevado en California a lo largo del periodo considerado.En cuanto a la variabilidad, California presenta una desviación estándar de 2.27, superior a la de Washington (1.72), lo que refleja una mayor fluctuación en las tasas de desempleo californianas. Este patrón se confirma con la varianza (5.14 frente a 2.95) y el rango (9.14 frente a 8.16).

De igual forma, se obtiene que la tasa de desempleo osciló entre 5.22% y 14.36% en California, y entre 5.02% y 13.17% en Washington, evidenciando que ambos estados enfrentaron episodios de desempleo alto, aunque de menor intensidad en la capital del país.

Los diagramas de caja anteriores nos permiten visualizar la distribución de las tasas promedios de cada uno de los Estados estudiados en este caso. En ambos estados se observa una asimetría leve hacia la derecha, lo que indica la existencia de algunos periodos con tasas de desempleo más altas de lo habitual. California muestra una mayor amplitud intercuartílica, evidenciando una variabilidad más pronunciada que Washington.

Los histogramas de las tasas promedio en el periodo comprendido indican una distribución unimodal, con una concentración de observaciones en torno a los valores medios de desempleo. En California, la distribución se desplaza ligeramente hacia la derecha, mientras que en Washington se presenta una forma más simétrica. Esto refleja que, aunque ambos estados siguen patrones similares, California ha experimentado con mayor frecuencia tasas más elevadas.

El gráfico de dispersión entre las tasas promedio de desempleo en ambos Estados muestra una relación positiva clara, lo que indica que cuando el desempleo aumenta en un estado, tiende a hacerlo también en el otro. Sin embargo, la nube de puntos no se ajusta perfectamente a una línea recta, por lo cual podría pensarse que existen factores específicos de cada estado que influyen de manera diferente en sus dinámicas laborales.

Análisis de Series de Tiempo

En esta sección se analiza el comportamiento temporal de la tasa promedio de desempleo en los estados de California y Washington durante el periodo 1992–2009.

El propósito es identificar patrones como tendencia y estacionariedad para su posterior modelado mediante técnicas de series de tiempo.

En el siguiente gráfico de la evolución del desempleo en 2 regiones de las más populares de los Estados unidos se puede observar claramente cómo fue el comportamiento similar, especialmente en la primera década del periodo estudiado. En comparación, es notable que el estado de California mantiene tasas de desempleo más altas que Washington durante la mayor parte del periodo, lo que refleja una mayor vulnerabilidad en la dinámica laboral californiana frente a las fluctuaciones económicas nacionales.

Serie Temporal del Estado de Whashington

A continuación, se muestran las observaciones de la serie temporal correspondiente a la tasa promedio mensual de desempleo en el estado de Washington para el periodo 1992–2009.

Esta serie se define con una frecuencia mensual (12 observaciones por año) y constituye la base para los análisis de tendencia, estacionalidad y modelamiento ARIMA que se presentan más adelante.

##            Jan       Feb       Mar       Apr       May       Jun       Jul
## 1992 11.733333 12.151282 10.989744  9.466667  8.894872  8.410256  8.394872
## 1993 13.171795 12.689744 11.820513 10.176923  9.007692  8.461538  8.317949
## 1994 11.415385 11.425641 10.838462  9.364103  8.261538  7.471795  7.479487
## 1995 10.612821 10.971795  9.679487  8.907692  8.120513  7.471795  7.351282
## 1996 11.097436 10.792308  9.941026  8.879487  8.551282  7.510256  7.289744
## 1997  9.533333  9.476923  8.615385  7.497436  6.430769  6.020513  5.733333
## 1998  9.558974  9.089744  8.356410  6.687179  6.164103  6.023077  5.787179
## 1999  9.179487  9.438462  8.202564  7.248718  6.712821  6.435897  5.910256
## 2000  8.276923  8.433333  7.725641  6.641026  6.307692  6.015385  5.864103
## 2001  9.251282  9.415385  8.966667  8.233333  7.415385  7.058974  6.602564
## 2002 10.630769 10.238462  9.843590  9.358974  8.125641  7.848718  7.323077
## 2003 10.184615 10.135897  9.564103  8.930769  8.223077  8.233333  7.689744
## 2004  9.838462  9.415385  8.779487  7.520513  6.858974  6.758974  6.307692
## 2005  8.487179  8.469231  7.458974  6.856410  6.338462  6.017949  5.807692
## 2006  7.958974  7.823077  6.930769  6.458974  6.243590  5.792308  5.720513
## 2007  7.751282  7.553846  6.728205  6.266667  5.787179  5.371795  5.400000
## 2008  7.589744  7.805128  7.089744  6.358974  6.379487  6.112821  5.884615
## 2009  9.766667 10.392308 10.171795  9.561538  9.507692  9.448718  9.217949
##            Aug       Sep       Oct       Nov       Dec
## 1992  8.448718  7.679487  8.066667  9.694872 10.648718
## 1993  8.317949  7.538462  7.833333  8.561538  9.576923
## 1994  7.784615  6.887179  7.187179  8.612821  9.156410
## 1995  7.679487  6.784615  7.041026  8.669231  9.107692
## 1996  7.033333  6.371795  6.364103  7.600000  8.402564
## 1997  5.776923  5.146154  5.374359  6.487179  7.397436
## 1998  6.051282  5.617949  5.864103  6.917949  7.841026
## 1999  5.948718  5.212821  5.056410  6.156410  6.971795
## 2000  6.264103  5.394872  5.535897  6.856410  7.564103
## 2001  7.184615  6.510256  6.820513  8.425641  9.356410
## 2002  7.400000  6.707692  6.720513  8.182051  8.853846
## 2003  7.892308  7.158974  7.023077  8.217949  8.530769
## 2004  6.379487  5.710256  5.753846  6.812821  7.582051
## 2005  6.002564  5.658974  5.584615  6.579487  6.948718
## 2006  5.905128  5.325641  5.015385  6.207692  6.656410
## 2007  5.410256  5.117949  5.064103  6.058974  6.884615
## 2008  6.089744  5.625641  5.882051  6.871795  7.979487
## 2009  9.738462  9.751282  9.794872 10.658974 11.812821

Serie Temporal del Estado de California

De igual forma, se muestra las observaciones de la serie temporal correspondiente a la tasa promedio mensual de desempleo en el estado de California.

##            Jan       Feb       Mar       Apr       May       Jun       Jul
## 1992 12.870690 13.537931 13.000000 11.839655 11.336207 11.810345 11.550000
## 1993 14.236207 14.360345 13.608621 12.513793 11.743103 11.834483 11.503448
## 1994 13.336207 13.300000 12.796552 11.450000 10.344828 10.294828 10.365517
## 1995 12.351724 11.777586 11.951724 11.424138 10.567241 10.389655 10.379310
## 1996 12.479310 12.027586 11.825862 10.536207  9.505172  9.168966  9.405172
## 1997 11.560345 11.187931 10.836207  9.379310  8.465517  8.672414  8.467241
## 1998 10.925862 10.744828 10.717241  8.960345  8.213793  8.503448  8.344828
## 1999  9.489655  9.634483  9.227586  8.172414  6.955172  7.143103  7.105172
## 2000  7.255172  7.462069  7.562069  6.243103  5.955172  6.034483  6.108621
## 2001  7.508621  7.479310  7.563793  6.484483  5.789655  6.039655  6.018966
## 2002  8.756897  8.451724  8.536207  7.734483  6.844828  7.270690  7.298276
## 2003  9.346552  9.018966  8.936207  8.112069  7.458621  7.887931  7.724138
## 2004  9.181034  8.810345  9.081034  7.777586  7.001724  7.367241  7.243103
## 2005  8.344828  8.282759  7.922414  6.917241  6.318966  6.451724  6.508621
## 2006  7.358621  7.322414  7.375862  6.812069  5.755172  5.906897  6.198276
## 2007  7.534483  7.562069  7.291379  6.712069  6.082759  6.365517  6.734483
## 2008  8.725862  8.617241  8.756897  7.798276  7.655172  8.037931  8.470690
## 2009 12.287931 12.718966 13.012069 11.931034 11.706897 12.189655 12.320690
##            Aug       Sep       Oct       Nov       Dec
## 1992 10.829310 11.006897 11.124138 12.544828 12.963793
## 1993 10.543103 10.263793 10.689655 11.267241 11.567241
## 1994  9.493103  9.117241  9.265517 10.315517 10.212069
## 1995  9.367241  9.141379  9.006897 10.417241 10.537931
## 1996  8.172414  8.105172  8.365517  9.755172  9.770690
## 1997  7.727586  7.627586  7.886207  8.848276  9.268966
## 1998  7.477586  7.258621  7.431034  8.263793  8.386207
## 1999  6.174138  5.901724  5.950000  6.915517  7.322414
## 2000  5.712069  5.215517  5.313793  6.244828  6.143103
## 2001  5.946552  5.668966  6.115517  7.275862  7.570690
## 2002  6.884483  6.470690  6.841379  8.046552  8.105172
## 2003  7.200000  6.791379  7.005172  7.810345  7.860345
## 2004  6.586207  6.213793  6.486207  7.224138  7.377586
## 2005  5.996552  5.932759  5.931034  6.658621  6.560345
## 2006  5.696552  5.289655  5.277586  6.043103  6.355172
## 2007  6.274138  6.091379  6.320690  6.982759  7.631034
## 2008  8.337931  8.162069  8.732759  9.910345 10.644828
## 2009 11.917241 11.784483 12.448276 13.051724 13.660345

Gráficas

Una vez ya creadas las series con los datos correspondientes procedemos a visualizarlas como se muestra a continuación para su posterior análisis:

Funciones de autocorrelación

En esta sección presentamos el análisis de las funciones de autocorrelación, que sirven para evaluar la dependencia temporal entre los valores actuales y pasados de la tasa de desempleo de las series y ayudan a identificar posibles modelos ARIMA o SARIMA.

En los gráficos de autocorrelación (FAC y FACP) de la serie de California se evidencia una alta dependencia temporal, lo que indica que la serie no es estacionaria en su forma original. La FAC muestra una disminución lenta a medida que aumenta el rezago, mientras que la FACP presenta solo algunos rezagos significativamente diferentes de cero, lo que sugiere la posible presencia de un componente autorregresivo de bajo orden una vez aplicada la diferenciación.

En el caso de la serie de Washington, se observa un comportamiento similar: la FAC presenta un patrón de autocorrelaciones positivas que decrecen gradualmente, confirmando la no estacionariedad de la serie. Por su parte, la FACP muestra pocos rezagos relevantes, lo cual también apunta a que, tras la diferenciación, la dinámica de la serie podría modelarse adecuadamente mediante un proceso ARIMA con un componente autorregresivo de bajo orden.

Descomposiciones de las Series (Aditiva y Multiplicativa)

Serie de la tasa promedio de desempleo - Estado de California

La descomposición tanto aditiva como multiplicativa muestra una tendencia general descendente hasta aproximadamente el año 2000, seguida de un incremento sostenido en los años posteriores. Además, se aprecia una estacionalidad claramente definida, lo que indica que el desempleo presenta comportamientos recurrentes en determinados meses del año. El componente aleatorio no exhibe un patrón sistemático, lo cual sugiere que las fluctuaciones restantes responden principalmente a factores externos o coyunturales, reflejando la naturaleza cíclica del desempleo en el estado.

Serie de la tasa promedio de desempleo - Estado de Washington

En el caso de Washington, las descomposiciones aditiva y multiplicativa evidencian una tendencia variable a lo largo del periodo analizado, con fases de aumento y disminución en la tasa de desempleo. Se observa también un patrón estacional leve pero recurrente, que apunta a la existencia de ciclos económicos regulares, aunque menos pronunciados que en California. El componente aleatorio presenta fluctuaciones irregulares sin un comportamiento definido, lo cual indica la influencia de factores no sistemáticos sobre la serie.

Pruebas de estacionariedad

En la Figuras 6 y 7 se puede observar que ambas series presentan variaciones en su media y varianza a lo largo del tiempo, lo que sugiere la ausencia de estacionariedad (Archila et al., 2023, p.75).

Con el fin de evaluar formalmente la estacionariedad de las series temporales correspondientes a las tasas promedio de desempleo en los estados de California y Washington, se aplicó la prueba de Kwiatkowski–Phillips–Schmidt–Shin (KPSS).

Para ello consideraremos el contraste de las siguientes hipótesis:

$H_0$: la Serie es estacionaria.

$H_1$: la Serie no estacionaria.

Donde un resultado del p-valor menor que un nivel de significancia del 0.05, se rechaza la hipótesis nula y se concluye que la Serie no es estacionaria.

A continuación se muestran los resultados obtenidos:

## 
##  KPSS Test for Level Stationarity
## 
## data:  serie_california
## KPSS Level = 1.6453, Truncation lag parameter = 4, p-value = 0.01

## 
##  KPSS Test for Level Stationarity
## 
## data:  serie_desempleoW
## KPSS Level = 0.82667, Truncation lag parameter = 4, p-value = 0.01

Como se puede observar anteriormente, cada una de las Series tiene un p-valor de 0.01 y es menor que el nivel de significancia 0.05, por lo tanto, podemos decir que no son estacionarias teniendo en cuenta las hipótesis planteadas.

Dado que las Series no son estacionarias podemos saber mediante la función ndiffs() cuántas diferenciaciones debemos hacer para que cada una cumpla con dicha componente:

## Número de diferencias para la Serie California: 1

## Número de diferencias para la Serie Washington: 1

Series diferenciadas

Dada la no estacionariedad en ambas Series originales, procederemos a realizar una diferenciación de primer orden con el propósito de eliminar la tendencia y estabilizar la media, buscando así obtener series estacionarias adecuadas para el modelado ARIMA O SARIMA.

Con aras de validar que cada una de las Series se han vuelto estacionarias, volvemos a realizar la prueba KPSS a las Series que se le aplicó la diferenciación de primer orden.

## 
##  KPSS Test for Level Stationarity
## 
## data:  st_california
## KPSS Level = 0.18959, Truncation lag parameter = 4, p-value = 0.1

## 
##  KPSS Test for Level Stationarity
## 
## data:  st_w
## KPSS Level = 0.084779, Truncation lag parameter = 4, p-value = 0.1

En efecto, los nuevos resultados del P-valor de la prueba KPSS para cada Serie es de 0.1, mayores que 0.05, por lo tanto, no rechazamos la hipótesis nula y concluimos que ahora las series son estacionarias.

Gráficas Series diferenciadas

En las siguientes gráficas se verán las 2 Series diferenciadas:

Funciones de Autocorrelación - Series diferenciadas

Para esta Serie diferenciada de California, la FAC presenta un pico significativo en el rezago 1, seguido de un corte rápido hacia valores cercanos a cero. Esto indica que la mayor parte de la dependencia temporal se elimina con la diferenciación.

En ese sentido el comportamiento sugiere la presencia de un componente MA de bajo orden en dicha Serie.

La FACP muestra uno o dos rezagos significativamente distintos de cero y el resto se mantiene dentro de las bandas de confianza, reforzando la idea de que la serie ya no presenta dependencia fuerte.

Para este caso, la autocorrelación cae repentinamente después del rezago 1, como también no se observan patrones persistentes ni colas largas, lo que es típico de una serie adecuadamente diferenciada.

El comportamiento apunta a un posible componente MA de bajo orden.

La FACP muestra solo unos pocos picos significativos al inicio, mientras que el resto de las barras permanece dentro de los límites de confianza.

Este patrón es típico de un modelo AR de orden bajo, pues indica que solo los primeros rezagos aportan información real para explicar el comportamiento de la serie.

Evaluación y Selección de Modelos ARIMA

Una vez alcanzada la estacionariedad de las series, se procedió a la identificación y estimación del mejor modelo ARIMA(p,d,q) mediante la función auto.arima(), con el objetivo de representar adecuadamente la dinámica temporal de la tasa de desempleo.

Para la comparación de los modelos se consideraron los criterios de información de Akaike (AIC) y Bayesiano (BIC), los cuales penalizan la complejidad del modelo y permiten seleccionar aquel que logra el mejor equilibrio entre ajuste y parsimonia (Nurkholis, 2023).

Tras la estimación de varias combinaciones posibles de parámetros en ambas Series diferenciadas de los Estados en cuestión, encontramos que para la Serie de California el modelo que presentó los menores valores de AIC y BIC fue un $ARIMA_(3,0,1)$, mientras que para la Serie de Washington resultó un $ARIMA_(2,0,2)$ por lo que se consideró como los modelos más adecuado para describir el comportamiento de la series analizadas.

Podemos notar que los modelos obtenidos son equivalentes a tener la forma como sigue:

\[ \phi (B)(1-B)^{d}X_{t}=\delta +\theta (B)\varepsilon _{t}\\≡ (1-\phi _{1}B-\phi _{2}B^{2}-\dots -\phi _{p}B^{p})(1-B)^{d}X_{t}=\delta +(1+\theta _{1}B+\theta _{2}B^{2}+\dots +\theta _{q}B^{q})\varepsilon_{t} \]

## Series: st_california 
## ARIMA(3,0,1) with zero mean 
## 
## Coefficients:
##          ar1      ar2      ar3      ma1
##       0.8874  -0.0062  -0.3209  -0.7563
## s.e.  0.0789   0.0898   0.0665   0.0555
## 
## sigma^2 = 0.4012:  log likelihood = -205.24
## AIC=420.48   AICc=420.77   BIC=437.33
## 
## Training set error measures:
##                       ME      RMSE       MAE      MPE     MAPE     MASE
## Training set 0.001848632 0.6275124 0.5032634 92.24856 185.2616 2.054087
##                     ACF1
## Training set 0.009325402

Análisis de los residuos del Modelo ARIMA(3,0,1)

En esta sección se analizan los residuos del modelo anterior obtenido con el objetivo de poder conocer si es un modelo ARIMA apropiado para modelar la serie del Estado de California. Esto se logra por medio del uso de la función checkresiduals() del paquete forecast, como sigue:

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,0,1) with zero mean
## Q* = 283.95, df = 20, p-value < 2.2e-16
## 
## Model df: 4.   Total lags used: 24

## 
##  Shapiro-Wilk normality test
## 
## data:  m_st_california$residuals
## W = 0.98979, p-value = 0.1319

## 
##  KPSS Test for Level Stationarity
## 
## data:  m_st_california$residuals
## KPSS Level = 0.81428, Truncation lag parameter = 4, p-value = 0.01

En primer lugar, planteamos la prueba estadística de Ljung–Box, que se empleará en este caso para verificar si los residuos del modelo ARIMA ajustado en la sección anterior son un ruido blanco.

Para ello, de acuerdo con Bobbitt (2020) disponemos de la siguientes hipótesis:

$H_0:$ Los residuos se distribuyen de forma independiente.

$H_1:$ Los residuos no se distribuyen de forma independiente; presentan correlación.

Para la decisión de la prueba, con un nivel de significancia de 0.05, se rechaza $H_0$ si el p-valor obtenido es menor que dicho valor.

Para el caso de la Serie de California, tenemos el siguiente criteriio de decisión: dado que el p-valor < 2.2e-16 de la prueba es muy pequeño al nivel de significancia de 0.05, entonces rechazamos la hipótesis nula y concluimos que los residuos no son ruido blanco.

En segundo lugar, con la aplicación de la prueba de normalidad de Shapiro-Wilk, que dispone de las siguientes hipótesis:

$H_0:$ Los residuos provienen de una distribución normal.

$H_1:$ Los residuos no provienen de una distribución normal.

Se concluye que a un nivel de significancia de 0.05, el p-valor = 0.13 obtenido es mayor, lo que indica claramente que la hipótesis $H_0$ no se rechaza, por lo tanto, los residuos del Modelo ARIMA provienen de una distribución normal.

Y en tercer lugar, la prueba KPSS arroja un p-valor de 0.01 menor que el nivel de significancia, por lo cual se entiende que los residuos no son estacionarios.

Así mismo, el gráfico de residuos a lo largo del tiempo muestra que estos fluctúan alrededor de cero, pero no de manera completamente estable. Se observan variaciones en la amplitud de los residuos que sugieren ligeras inconsistencias respecto a la varianza constante. Esto implica que, aunque el modelo captura parte importante de la estructura de la serie, aún quedan patrones no explicados.

La función de autocorrelación (ACF) presenta varios rezagos que exceden los límites de significancia, dado eso el modelo no logra capturar completamente la dependencia temporal de la serie original. Es decir, en un modelo bien ajustado se espera que todos los rezagos caigan dentro del intervalo de confianza.

De acuerdo al grafico Q-Q plot los puntos siguen aproximadamente la línea recta, sugiriendo que los residuos tienen distribución cercana a la normal. Hay ligeras desviaciones en los extremos.

En conclusión, gracias a los criterios anteriores se confirma que este modelo ARIMA(3,0,1) no es el más optimo, dedido a que no logra capturar completamente la estructura temporal de la Serie del Estado de California.

## Series: st_w 
## ARIMA(2,0,2) with zero mean 
## 
## Coefficients:
##          ar1      ar2      ma1     ma2
##       0.9256  -0.8001  -0.5288  0.9342
## s.e.  0.0479   0.0495   0.0372  0.0246
## 
## sigma^2 = 0.3542:  log likelihood = -193.28
## AIC=396.57   AICc=396.86   BIC=413.42
## 
## Training set error measures:
##                       ME      RMSE       MAE  MPE MAPE     MASE        ACF1
## Training set 0.001618656 0.5895502 0.4766213 -Inf  Inf 1.825373 -0.00329107

Análisis de los residuos del Modelo ARIMA(2,0,2)

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(2,0,2) with zero mean
## Q* = 333.72, df = 20, p-value < 2.2e-16
## 
## Model df: 4.   Total lags used: 24

## 
##  Shapiro-Wilk normality test
## 
## data:  m_st_w$residuals
## W = 0.97317, p-value = 0.0004067

## 
##  KPSS Test for Level Stationarity
## 
## data:  m_st_w$residuals
## KPSS Level = 0.10359, Truncation lag parameter = 4, p-value = 0.1

En el primer gráfico los residuos parecen oscilar alrededor de cero sin patrones evidentes, lo que sugiere que el modelo capturó adecuadamente la estructura de la serie, pero se observa una leve tendencia en la varianza, especialmente, en la última década.

La función de autocorrelación muestra que la mayoría de los rezagos están fuera de las bandas de confianza (líneas azules punteadas). Esto indica que hay autocorrelación significativa en los residuos, lo que no es muy bueno,permite entender que el modelo no capturó toda la estructura dependiente de la serie.

Para el caso de la Serie de Washington también verificamos los mismos supuestos encontrando lo siguiente:

Para la prueba de Ljung-Box el p-valor obtenido es igual que el de la Serie de California, por lo tanto se concluye que los residuos no son ruido blanco.

En cuanto a la prueba de normalidad se obtuvo un p-valor de 0.0004 mucho menor que el nivel de significancia, por lo tanto, los residuos no provienen de una distribución normal.

Adicionalmente, se obtuvo para la prueba KPSS un p-valor de 0.1 mayor que el nivel de significancia, lo que indica que los residuos presentan estacionariedad.

El gráfico Q-Q plot anterior nos muestra hay cierta cantidad de puntos muy alejados de la línea recta, esto puede traducirse en que los datos no suelen seguir la distribución esperada, es decir, por la presencia de valores atípicos.

Las métricas de error del modelo ARIMA(2,0,2) se resumen como sigue:

El error medio (ME = 0.0016) es prácticamente cero, lo que sugiere que el modelo no presenta sesgo sistemático en sus predicciones. Los errores RMSE (0.5896) y MAE (0.4766) reflejan una precisión aceptable en las predicciones, considerando la escala de la tasa de desempleo. Así mismo, El MASE aunque mayor que 1, es común en series económicas donde la variabilidad inherente es alta.

En resumen, el presente Modelo ARIMA aunque es el mejor de todos los evaluados dentro de la función auto.arima() no lo logra modelar de manera adecuada los datos de la Serie temporal del Estado de Washington.

Teniendo como referencia los resultados anteriores, el modelo ajustado para la Serie de tiempo de la tasa promedio de desempleo en el Estado de California corresponde a un ARIMA(3,0,1) con d=0, el cual incluye tres componentes autorregresivos y un término de medias móviles. Matemáticamente, el modelo se representa en función del operador de retardo como (Archila et al., 2023, p.77).

$$ (1 - _1 B - _2 B^2 - _3 B^3--_pB^p)(1 - B)^{d}X_t = (1 + _1 B+ _2 B^2 ++_q B^q)_t

\[ \] (1 - _1 B - _2 B^2 - _3 B^3)(1 - B)^{d}X_t = (1 + _1 B )_t\≡ (1-0.8874B-(-0.0062)B^2-(-0.3209)B3)(1 - B)X_t = (1 + (-0.7563)B )_t $$

Por su parte, para la Serie del Estado de Whashington resultó el modelo ARIMA (2,0,2) y viene dado de la siguiente forma:

\[ (1 - \phi_1 B - \phi_2 B^2 )(1 - B)^{d}X_t = (1 + \theta_1 B + \theta_2 B^2)\varepsilon_t\\≡ (1- 0.9256B-(-0.8001)B^2)(1 - B)X_t = (1 + ( -0.5288)B + ( 0.9342)B^2)\varepsilon_t \]

Evaluación y Selección de Modelos SARIMA

En esta sección se seleccionan los mejores modelos SARIMA para cada una de las series, que según Benítez (2021) se definen de la siguiente forma:

\[ \phi(B)\,\Phi(B^s)\,(1-B)^d\,(1-B^s)^D\,Y_t \;=\; \theta(B)\,\Theta(B^s)\,e_t \] Donde:

\[ \phi(B) = 1 - \phi_1 B - \phi_2 B^2 - \cdots - \phi_p B^p\text{(Polinomio autorregresivo no estacional)} \]

\[ \Phi(B^s) = 1 - \Phi_1 B^s - \Phi_2 B^{2s} - \cdots - \Phi_P B^{Ps} \text{(Polinomio autorregresivo estacional)} \]

\[ (1-B)^d \text{ : operador de diferenciación no estacional de orden } d \]

\[ (1-B^s)^D \text{ : operador de diferenciación estacional de orden } D \]

\[ \theta(B) = 1 - \theta_1 B - \theta_2 B^2 - \cdots - \theta_q B^q \text{(Polinomio de media móvil no estacional) } \]

\[ \Theta(B^s) = 1 - \Theta_1 B^s - \Theta_2 B^{2s} - \cdots - \Theta_Q B^{Qs} \text{(Polinomio de media móvil estacional) } \]

\[ e_t \text{ : término de error aleatorio (ruido blanco)}\\s\text{ : periodicidad} \]

## Series: st_california 
## ARIMA(2,0,1)(1,1,1)[12] 
## 
## Coefficients:
##          ar1     ar2      ma1    sar1     sma1
##       0.6986  0.2306  -0.8507  0.2994  -0.8350
## s.e.  0.1064  0.0721   0.0854  0.1148   0.0857
## 
## sigma^2 = 0.07912:  log likelihood = -32.15
## AIC=76.29   AICc=76.72   BIC=96.17
## 
## Training set error measures:
##                       ME      RMSE       MAE      MPE     MAPE     MASE
## Training set 0.003434275 0.2699311 0.2028958 84.14292 170.8423 0.828126
##                      ACF1
## Training set -0.005545079

## Series: st_w 
## ARIMA(0,0,2)(0,1,2)[12] 
## 
## Coefficients:
##           ma1     ma2     sma1     sma2
##       -0.1224  0.2229  -0.5374  -0.1186
## s.e.   0.0712  0.0743   0.0825   0.0788
## 
## sigma^2 = 0.08362:  log likelihood = -37.16
## AIC=84.33   AICc=84.63   BIC=100.9
## 
## Training set error measures:
##                       ME      RMSE       MAE  MPE MAPE     MASE      ACF1
## Training set 0.009509535 0.2781971 0.2139402 -Inf  Inf 0.819352 0.0297363

Análisis de los residuos del Modelo ARIMA(2,0,1)(1,1,1)[12]

En esta parte analizaremos los residuos de los modelos ajustados, para saber si son o no los mejores para describir las series de tiempo.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(2,0,1)(1,1,1)[12]
## Q* = 17.552, df = 19, p-value = 0.5525
## 
## Model df: 5.   Total lags used: 24

## 
##  KPSS Test for Level Stationarity
## 
## data:  fit_california$residuals
## KPSS Level = 0.37759, Truncation lag parameter = 4, p-value = 0.08681

## 
##  Shapiro-Wilk normality test
## 
## data:  fit_california$residuals
## W = 0.96898, p-value = 0.0001149

Con respecto al ajuste de este modelo, se tiene que:

El p-valor = 0.55 > 0.05 en la prueba Ljung-Box demuestra que no se rechaza la hipótesis nula de ausencia de autocorrelación, lo que confirma que los residuos son ruido blanco.

La prueba KPSS arrojó un p-valor = 0.09, no se rechaza la hipótesis nula. En efecto, hay evidencia suficiente de que los residuos son estacionarios.

En la prueba de normalidad el p-valor es menor a 0.05, lo que indica que los residuos no siguen una distribución normal según esta prueba. Pero lo importante es que se cumple independencia y estacionariedad.

Análisis de los residuos del Modelo ARIMA(0,0,2)(0,1,2)[12]

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,2)(0,1,2)[12]
## Q* = 21.506, df = 20, p-value = 0.3679
## 
## Model df: 4.   Total lags used: 24

## 
##  KPSS Test for Level Stationarity
## 
## data:  fit_w$residuals
## KPSS Level = 0.53453, Truncation lag parameter = 4, p-value = 0.03389

## 
##  Shapiro-Wilk normality test
## 
## data:  fit_w$residuals
## W = 0.99431, p-value = 0.5919

Dados los resultados de cada una de las pruebas, podemos interpretar que:

En la Prueba de Ljung–Box el p-valor = 0.37 es > 0.05, no se rechaza la hipótesis nula. Esto significa que los residuos no presentan autocorrelación significativa, por lo que el modelo está capturando adecuadamente la dependencia temporal.

En la prueba KPSS se rechaza la hipótesis nula el p-valor = 0.033 < 0.05, por lo tanto, existe evidencia estadística de que los residuos no son estacionarios.

Y en el test de Shapiro-Wilk se evidencia un p-valor = 0.59 > 0.05, esto nos indica que los residuos del modelo ajustado no muestran desviaciones importantes respecto a la distribución normal, lo que es deseable.

Para mayor claridad de lo dicho resulta apropiado comprender los gráficos relativos a los residuos. Por ejemplo, el Q–Q plot de los residuos muestra que la mayoría de los puntos se alinean de manera cercana a la recta teórica, lo que indica que los residuos presentan un comportamiento aproximadamente normal. Las pequeñas desviaciones observadas en las colas son comunes en modelos de series de tiempo y no comprometen la validez del ajuste.

Validación de Modelos

Comparación de Métricas entre Modelos ARIMA y SARIMA
Modelo	AIC	BIC	RMSE	MAE
ARIMA - serie California	420.481	437.334	0.401	0.503
SARIMA - serie California	76.292	96.171	0.079	0.203
ARIMA - serie Washington	396.569	413.422	0.354	0.477
SARIMA - serie Washington	84.329	100.895	0.084	0.214

En comparación, el Estado de California presenta los Criterios de información más bajos entre los dos modelos (AIC = 76.29 y BIC = 96.17), mientras que en Washington los valores son ligeramente superiores.

Esto permite entender que el modelo SARIMA ajustado para la Serie de California logra un mejor desempeño respecto al de Washington en términos de eficiencia y parsimonia. Es decir, captura de manera más adecuada la dinámica temporal de la serie, con menor complejidad relativa.

En cuanto al error medio absoluto vemos que son cercanos a cero, indicando así que hay buena precisión en las predicciones. Aunque la diferencia es pequeña, el modelo de California también muestra un menor error promedio en sus predicciones (MAE=0.202), lo que indica que modela los valores de la serie de forma ligeramente más precisa que el modelo de Washington.

Previsiones de las Series

Para complementar el análisis descriptivo y estructural de las series de tiempo, se realizará un ejercicio de pronóstico con el fin de estimar la evolución futura de la tasa de desempleo en California y Washington. Teniendo en cuenta los modelos SARIMA más adecuados para cada serie, se procedió a generar previsiones utilizando las funciones del paquete forecast().

La idea es generar pronósticos para los próximos 36 meses, lo que corresponde a un tiempo de tres años. El objetivo de esta sección es interpretar la tendencia proyectada respecto al comportamiento histórico de cada serie.

#Comparación de la series históricas vs pronóstico

Comparación Serie Observada vs. Pronóstico - Tasa California
Meses	Observado	Pronosticado
1	1.17931034	1.41640210
2	0.02758621	0.20376600
3	-0.27068966	0.14628238
4	-0.57931034	-0.96198146
5	-0.62931034	-0.41567900
6	0.28275862	0.40150899
7	0.36896552	0.16941929
8	-0.46034483	-0.41576815
9	-0.18275862	-0.16215917
10	0.22931034	0.46920746
11	0.66206897	0.80715429
12	0.64827586	0.48016608
13	1.09482759	1.34718032
14	-0.10862069	0.11384512
15	0.13965517	0.08673107
16	-0.95862069	-0.94226934
17	-0.14310345	-0.48775969
18	0.38275862	0.36321576
19	0.43275862	0.16775935
20	-0.13275862	-0.43186720
21	-0.17586207	-0.18266620
22	0.57068966	0.39990473
23	1.17758621	0.85773764
24	0.73448276	0.43188383
25	1.64310345	1.31719197
26	0.43103448	0.07818532
27	0.29310345	0.06066115
28	-1.08103448	-0.94413754
29	-0.22413793	-0.51667135
30	0.48275862	0.34483746
31	0.13103448	0.16074285
32	-0.40344828	-0.44283661
33	-0.13275862	-0.19460600
34	0.66379310	0.37368387
35	0.60344828	0.86772460
36	0.60862069	0.41256112

Comparación Serie Observada vs. Pronóstico - Tasa Washington
Meses	Observado	Pronosticado
1	1.09487179	1.28370366
2	-0.19743590	0.31849724
3	-0.82564103	-0.52051218
4	-0.46153846	-0.64214564
5	-0.47948718	-0.23616763
6	-0.41538462	-0.19837523
7	0.02820513	-0.21216207
8	0.01025641	0.32092433
9	-0.29230769	-0.25797735
10	-0.05384615	0.02358938
11	0.99487179	0.98490946
12	0.82564103	0.93586036
13	0.70512821	1.24213453
14	0.21538462	0.21356272
15	-0.71538462	-0.58443048
16	-0.73076923	-0.65219803
17	0.02051282	-0.26209135
18	-0.26666667	-0.22701246
19	-0.22820513	-0.21024606
20	0.20512821	0.27952210
21	-0.46410256	-0.31805846
22	0.25641026	0.02748173
23	0.98974359	1.00892799
24	1.10769231	0.89897356
25	1.78717949	1.25483192
26	0.62564103	0.20621769
27	-0.22051282	-0.58443048
28	-0.61025641	-0.65219803
29	-0.05384615	-0.26209135
30	-0.05897436	-0.22701246
31	-0.23076923	-0.21024606
32	0.52051282	0.27952210
33	0.01282051	-0.31805846
34	0.04358974	0.02748173
35	0.86410256	1.00892799
36	1.15384615	0.89897356

Capítulo 2

Análisis Complementario: Dinámica Temporal de la Temperatura del aire en Valledupar

Además del estudio de las tasas de desempleo en California y Washington, este capítulo integra el análisis de otras dos series temporales correspondientes a la ciudad de Valledupar: la Temperatura Promedio Mensual y la Temperatura Máxima Mensual.

Estas series fueron procesadas siguiendo el mismo flujo metodológico aplicado a las tasas de desempleo, con el propósito de mantener coherencia analítica y permitir comparaciones entre dinámicas temporales de diferente naturaleza.

Incluir estas dos series adicionales permite extender el alcance del estudio, mostrando cómo el mismo conjunto de herramientas estadísticas puede adaptarse tanto a indicadores socioeconómicos como a variables ambientales.

Descripción del conjunto de datos

El conjunto de datos utilizado en este parte corresponde al registro histórico de temperatura del aire en el municipio de Valledupar (Cesar, Colombia), proveniente del portal oficial de datos abiertos del Gobierno de Colombia: Temperatura Ambiente del Aire – datos.gov.co (https://www.datos.gov.co/Ambiente-y-Desarrollo-Sostenible/Temperatura-Ambiente-del-Aire/sbwg-7ju4/about_data ).

El dataset original está conformado por 828,369 observaciones y 13 variables, que contienen información detallada de la temperatura medida por la estación meteorológica FEDEARROZ – AUT. A continuación, se describen de forma general las variables incluidas:

CodigoEstacion (numérico): Identificador de la estación meteorológica.
CodigoSensor (entero): Código del sensor de medición.
FechaObservacion (carácter): Fecha y hora del registro en formato “YYYY MM DD HH:MM:SS”.
Ano (entero): Año de la observación (2015–2024).
Mes (carácter): Mes de la observación en español.
ValorObservado (numérico): Temperatura del aire en °C. (Variable principal del análisis)
NombreEstacion (carácter): Nombre de la estación (FEDEARROZ – AUT).
Departamento (carácter): Departamento donde se ubica la estación (Cesar).
Municipio (carácter): Municipio (Valledupar).
ZonaHidrografica (carácter): Zona hidrográfica asociada.
Latitud (numérico): Coordenada en grados decimales.
Longitud (numérico): Coordenada en grados decimales.
DescripcionSensor (carácter): Descripción del tipo de sensor (Temperatura aire 2 m).

Depuración y filtrado

Durante la exploración inicial se identificó que la variable ValorObservado contenía valores atípicamente bajos, tales como 0, 0.5, 0.9, etc., que no son coherentes con la temperatura mínima real registrada para el municipio de Valledupar.

Con base en la literatura climatológica y en registros históricos, se estableció un umbral mínimo razonable de 16 °C, por lo que se aplicó el filtro a los datos teniendo en cuenta ese criterio.

Después de aplicar dicho criterio de depuración, el conjunto de datos final quedó conformado por 539,447 observaciones, manteniendo las mismas 13 variables originales.

En ese sentido, el presente estudio abarca 10 años de información (2015–2024), con registros que posteriormente fueron agregados para construir dos series mensuales:

Temperatura promedio mensual
Temperatura máxima mensual

Estas dos series son las que se utilizarán para el análisis descriptivo, diagnóstico, modelamiento SARIMA y posterior generación de previsiones.

A continuación, se presentan estadísticas básicas y visualizaciones como histogramas, curvas de densidad, diagramas de caja (boxplots) y gráficos de dispersión.

## Rows: 539,447
## Columns: 13
## $ CodigoEstacion    <dbl> 28035060, 28035060, 28035060, 28035060, 28035060, 28…
## $ CodigoSensor      <int> 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, …
## $ FechaObservacion  <chr> "2015 ene 01 12:00:00 AM", "2015 ene 01 01:00:00 AM"…
## $ Ano               <int> 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015…
## $ Mes               <chr> "enero", "enero", "enero", "enero", "enero", "enero"…
## $ ValorObservado    <dbl> 27.6, 27.2, 27.0, 27.0, 27.0, 27.0, 26.5, 27.3, 29.1…
## $ NombreEstacion    <chr> "FEDEARROZ - AUT", "FEDEARROZ - AUT", "FEDEARROZ - A…
## $ Departamento      <chr> "CESAR", "CESAR", "CESAR", "CESAR", "CESAR", "CESAR"…
## $ Municipio         <chr> "VALLEDUPAR", "VALLEDUPAR", "VALLEDUPAR", "VALLEDUPA…
## $ ZonaHidrografica  <chr> "CESAR", "CESAR", "CESAR", "CESAR", "CESAR", "CESAR"…
## $ Latitud           <dbl> 10.46361, 10.46361, 10.46361, 10.46361, 10.46361, 10…
## $ Longitud          <dbl> -73.24806, -73.24806, -73.24806, -73.24806, -73.2480…
## $ DescripcionSensor <chr> "Temp Aire 2 m", "Temp Aire 2 m", "Temp Aire 2 m", "…

Estadisticos descriptivos de la temperatura del aire
	temperatura
nbr.val	539447.00
nbr.null	0.00
nbr.na	0.00
min	16.00
max	49.60
range	33.60
sum	15373821.20
median	27.70
mean	28.50
SE.mean	0.01
CI.mean.0.95	0.01
var	15.75
std.dev	3.97
coef.var	0.14

De acuerdo a las medidas descriptivas de la tabla anterior, podemos entender la temperatura promedio en Valledupar durante el periodo estudiado es de 28.5 °C, lo que coincide con el clima cálido característico de la región. La mediana resultó ligeramente menor que la media, lo que sugiere una leve asimetría hacia valores altos, probablemente causada por días o meses particularmente calurosos que elevan el promedio.

El rango amplio (33.6 °C) evidencia la alta variabilidad térmica presente en los datos, en particular por la existencia de valores extremos como los máximos cercanos a 50 °C, que podrían corresponder a momentos del día con fuerte radiación solar.

La desviación estándar de aprox. 4 °C confirma la presencia de oscilaciones importantes, pero dentro de un nivel esperado para series de temperatura de alta frecuencia (horaria). Por su parte, el error estándar muy pequeño implica que la media poblacional se encuentra prácticamente en el mismo valor estimado, reforzando la estabilidad global de la temperatura promedio en el periodo analizado.

Valores de la Temp promedio y Temp Max
Ano	Mes	Temp_prom	Temp_max	n_obs
2015	enero	29.25296	36.6	744
2015	febrero	29.82440	37.9	672
2015	marzo	30.27930	39.0	744
2015	abril	30.46625	40.2	720
2015	mayo	30.35108	39.7	744
2015	junio	31.76806	42.2	720
2015	julio	31.44694	42.2	735
2015	agosto	31.19099	42.0	744
2015	septiembre	30.58458	40.1	720
2015	octubre	29.18374	39.6	744
2015	noviembre	28.74028	36.9	720
2015	diciembre	30.18683	38.1	744
2016	enero	29.82312	38.8	744
2016	febrero	30.76638	41.0	696
2016	marzo	31.43159	42.1	744
2016	abril	30.61153	41.0	720
2016	mayo	30.05121	41.0	744
2016	junio	30.25361	40.4	720
2016	julio	31.64979	49.6	1171
2016	agosto	30.88980	49.2	1324
2016	septiembre	29.53582	45.6	966
2016	octubre	27.84096	38.6	1482
2016	noviembre	27.11540	34.8	1175
2016	diciembre	28.57474	35.7	1156

Estadísticos descriptivos

## 
##  Correlación Temp max - Temp prom: 0.653

Este valor de correlación 0.65 indica que hay una relación positiva moderada entre ambos tipo de temperatura, donde tienden a incrementar juntas.

Estadísticos Descriptivos - Temperaturas de Valledupar
Serie	Observaciones	Media	Mediana	SD	Min	Max	Var	Rango
Temperatura Promedio	120	28.69	28.62	1.42	25.49	31.95	2.02	6.46
Temperatura Máxima	120	38.53	38.40	2.34	34.20	49.60	5.50	15.40

Con base a los resultados obtenidos en la tabla anterior, tenemos que la temperatura promedio mensual registra un valor medio de 28.69 °C con una mediana prácticamente igual (28.62 °C), lo que demuestra una distribución relativamente simétrica. Su variabilidad es baja (SD = 1.42), indicando que la temperatura promedio no fluctúa de forma marcada entre meses. Además, el rango es moderado (6.46 °C), con valores que van desde 25.49 °C hasta 31.95 °C.

En contraste, la temperatura máxima mensual presenta, como es esperable, valores más altos y una mayor dispersión. La media se ubica en 38.53 °C y la mediana en 38.40 °C, con una desviación estándar de 2.34, reflejando variaciones mensuales más pronunciadas que las observadas en la temperatura promedio. Su rango (15.40 °C) también es más amplio, con valores entre 34.20 °C y 49.60 °C, lo cual evidencia que los picos de calor pueden diferir de manera considerable a lo largo del año.

El histograma de la temperatura promedio mensual muestra una distribución aproximadamente simétrica concentrada entre 27°C y 30°C, con una mayor frecuencia alrededor de 28°C. La forma suave de la curva de densidad indica que la distribución tiende a ser ligeramente mesocúrtica, sin colas extremas pronunciadas.

Se observa además que los valores muy bajos o muy altos son poco frecuentes, lo que sugiere que la temperatura promedio del aire en Valledupar se mantiene relativamente estable a lo largo de los meses y años.

El histograma de la temperatura máxima mensual presenta una distribución más asimétrica hacia la derecha, con un mayor número de observaciones entre 37°C y 40°C, donde se alcanza el pico de densidad. Esto indica que estas temperaturas máximas son las más comunes en Valledupar. Sin embargo, se destaca la presencia de algunos valores atípicos o extremos entre 45–50°C. Estos picos altos suelen corresponder a eventos de calor intenso, probablemente asociados a condiciones climáticas como temporadas secas o episodios de radiación solar elevada.

En general, esta distribución evidencia que la variabilidad en las temperaturas máximas es mayor que en la temperatura promedio, mostrando episodios más elevados.

En términos generales el boxplot permite observar cómo se ha comportado la temperatura promedio mensual del aire, por ejemplo, entre 2015 y 2016, los valores promedio son relativamente altos, con medianas cercanas a los 30 °C, mostrando años más cálidos.

A partir de 2017 hasta 2021, los valores de temperatura promedio descienden ligeramente y muestran una mayor estabilidad, con medianas alrededor de 28–29 °C.

En 2022 se observa el año más frío del período analizado, con una mediana cercana a 27 °C, y Durante los 2 últimos años, las temperaturas parecen recuperarse, retornando a niveles similares a los de 2015–2016.

En cuanto a la temperatura máxima promedio mensual se evidencia que el año 2016 se destaca claramente por tener las temperaturas máximas más elevadas, con un rango amplio y un valor extremo cercano a 50 °C, lo que evidencia un evento climático inusualmente intenso. Entre 2017 y 2021, las máximas se estabilizan y muestran oscilaciones entre 37 y 40 °C, con menor variabilidad.

En 2022 se alcanza el nivel más bajo dentro de la serie, con una mediana por debajo de 37 °C.

Para 2023 y 2024, las temperaturas máximas vuelven a aumentar levemente, mostrando una posible tendencia al alza. Además, se observan valores mínimos atípicos especialmente en 2019 y 2024, sugiriendo episodios de temperaturas máximas inusualmente bajas. Mientras que en 2016 se presenta un valor más atípico de toda la serie.

A partir del gráfico de dispersión se aprecia una asociación directa y estable entre ambas variables, coherente con el comportamiento esperado en series climatológicas.

El mapa de calor muestra la evolución anual y mensual de la temperatura promedio del aire en Valledupar durante el período 2015–2024. Por ejemplo, los meses de junio, julio y agosto presentan los valores más altos de temperatura promedio, mientras que en enero, febrero, noviembre y diciembre suelen registrar temperaturas más moderadas.

Así mismo, se evidencia que hay una mayor variabilidad entre años que entre los meses.

Por su parte, el mapa de calor de la temperatura máxima mensual nos muestra que los meses más cálidos son julio, agosto y septiembre en los años 2015 y 2016 respectivamente. En comparación con las temperaturas promedios se da una variación más alta.

Análisis de Series de Tiempo

En esta sección se realiza el análisis conjunto de las dos series de tiempo: la Temperatura Promedio Mensual del Aire y la Temperatura Máxima Mensual registradas en Valledupar. El objetivo es examinar su comportamiento temporal, identificar posibles tendencias, patrones estacionales y relaciones entre ambas variables. Para luego establecer el planteamiento y comparación de modelos ARIMA o SARIMA que permitan realizar pronósticos confiables.

Serie Temporal de Temperatura promedio mensual en Valledupar

A continuación se muestran los datos respectivos de dicha serie:

##        Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep   Oct   Nov   Dec
## 2015 29.25 29.82 30.28 30.47 30.35 31.77 31.45 31.19 30.58 29.18 28.74 30.19
## 2016 29.82 30.77 31.43 30.61 30.05 30.25 31.65 30.89 29.54 27.84 27.12 28.57
## 2017 28.39 29.31 29.09 29.74 28.65 28.88 28.99 28.30 27.60 28.07 27.59 28.82
## 2018 28.27 29.02 29.48 28.95 27.87 29.53 30.48 29.88 28.14 27.42 28.37 28.48
## 2019 28.58 29.39 28.65 30.97 29.55 30.14 30.71 27.93 27.32 25.49 26.48 27.52
## 2020 27.90 28.83 29.04 28.85 28.13 27.34 27.13 27.36 28.09 27.53 26.98 28.38
## 2021 28.60 28.90 29.39 28.54 28.59 27.87 28.89 27.64 27.63 26.78 26.87 27.37
## 2022 27.97 28.25 28.76 27.05 27.41 26.38 27.79 26.78 25.96 25.76 25.72 26.53
## 2023 26.45 27.44 25.90 28.60 29.08 30.66 31.95 30.00 29.92 27.82 28.08 29.09
## 2024 29.79 29.23 30.47 30.63 28.92 28.15 29.63 28.93 28.38 27.98 26.76 28.06

Serie Temporal de Temperatura máxima mensual en Valledupar

De igual manera, los datos de la Serie Temperatura máxima:

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 2015 36.6 37.9 39.0 40.2 39.7 42.2 42.2 42.0 40.1 39.6 36.9 38.1
## 2016 38.8 41.0 42.1 41.0 41.0 40.4 49.6 49.2 45.6 38.6 34.8 35.7
## 2017 37.6 38.4 38.5 40.1 39.7 39.6 37.8 36.8 35.9 38.3 35.8 36.7
## 2018 36.8 37.5 40.8 37.9 37.2 38.6 40.0 40.7 37.5 35.6 36.2 37.4
## 2019 38.9 39.3 39.4 40.0 39.7 38.6 39.8 39.2 39.8 36.2 37.2 37.9
## 2020 39.2 40.3 40.8 40.2 39.6 38.8 39.1 39.5 36.7 35.7 34.2 35.0
## 2021 36.7 38.2 37.5 37.5 38.1 36.9 39.2 37.7 36.8 35.9 36.6 37.2
## 2022 37.6 38.9 38.3 37.8 37.0 36.2 37.2 38.4 35.5 36.1 34.4 36.6
## 2023 37.2 39.5 40.1 35.6 38.7 38.0 41.5 39.5 39.4 37.8 36.4 36.5
## 2024 38.4 39.2 39.8 40.8 38.3 37.7 38.4 38.4 38.9 36.7 36.2 39.0

Gráficas

Como se puede observar los registros de la temperatura promedio en cada año suelen tener ciclos de tendencia a la alza y a la baja, donde los picos más altos ocurren al principio y al final del periodo de tiempo. La temperatura media más alta se dió en el año 2023.

Para el caso de esta serie también es visible el patrón cíclico anual, donde logra entenderse que hay mayor pronunciamiento en los meses de verano que los de invierno. Así mismo, se evidencia que la mayor temperatura se dió entre los meses de 2016 y 2017 respectivamente.

Funciones de autocorrelación

En cuanto al análisis de la FAC, se muestra una disminución lenta y progresiva de los coeficientes a medida que aumenta el rezago. Este comportamiento es característico de series que presentan tendencia o un componente no estacionario, lo que se traduce en una alta persistencia entre observaciones cercanas en el tiempo.

Por otro lado, ocurre un pico significativo en el primer rezago, seguido de valores considerablemente más pequeños en los rezagos posteriores. Este patrón sugiere una estructura predominantemente autoregresiva, compatible con un proceso similar a un AR(1).

Para el caso de la temperatura máxima, se tiene que la FAC presenta varios rezagos que sobrepasan la bandas del nivel de confianza, reflejando así que no se cumple la estacionariedad en los datos.

La FACP permite interpretar que hay que decaimiento a partir del rezago 2 o 3, esto quiere decir que puede haber un componente autorregresivo relativo con esos valores.

Descomposiciones aditiva y multiplicativa

Serie de la temperatura promedio mensual

Serie de la temperatura máxima mensual

Pruebas de estacionariedad

## 
##  KPSS Test for Level Stationarity
## 
## data:  serie_temp
## KPSS Level = 0.78645, Truncation lag parameter = 4, p-value = 0.01

## 
##  KPSS Test for Level Stationarity
## 
## data:  serie_max
## KPSS Level = 0.57309, Truncation lag parameter = 4, p-value = 0.0252

Con base a las hipótesis planteadas previamente de la prueba KPSS y observando que los p-valor obtenidos de cada una de las Series es menor que el nivel de significancia 0.05, por lo tanto, se rechaza $H_0$ y se dice que no son estacionarias.

En ese sentido con la función ndiffs() podemos saber cuántas diferenciaciones debemos aplicar para volver a cada Serie estacionaria.

## Número de diferencias para la Serie Temp promedio: 1

## Número de diferencias para la Serie Temp máxima: 1

Series diferenciadas

Debido a que ambas series originales presentan comportamiento no estacionario, se aplicará una diferenciación de primer orden. Este procedimiento permite remover la tendencia y estabilizar la media, con el fin de obtener series estacionarias que sean apropiadas para el ajuste de modelos ARIMA o SARIMA.

Con el fin de validar que cada una de las Series se han vuelto estacionarias, volvemos a realizar la prueba KPSS a las Series ya diferenciadas.

## 
##  KPSS Test for Level Stationarity
## 
## data:  st_temp
## KPSS Level = 0.024045, Truncation lag parameter = 4, p-value = 0.1

## 
##  KPSS Test for Level Stationarity
## 
## data:  st_max
## KPSS Level = 0.030505, Truncation lag parameter = 4, p-value = 0.1

Efectivamente, los p-values obtenidos nuevamente en la prueba KPSS para ambas series son de 0.1, valores superiores al nivel de significancia de 0.05. Esto implica que no se rechaza la hipótesis nula de estacionariedad, por lo que podemos afirmar que las series diferenciadas cumplen ahora con este requisito.

Gráficas series diferenciadas

A continuación se pueden visualizar las series diferenciadas:

Al observar las series después de la diferenciación, se aprecia que oscilan alrededor de un valor cercano a cero, lo que indica que la media se ha estabilizado. Asimismo, la dispersión de los valores a lo largo del tiempo parece mantenerse relativamente uniforme, sugiriendo que la varianza es aproximadamente constante.

FUnciones de Autocorrelación - Series diferenciadas

Es completamente evidente que una vez aplicada la diferenciación a las series originales se logra alcanzar que la mayoría de los rezagos de la FAC y FACP se estabilizan, indicando que para los modelos posibles de ARIMA o SARIMA sean ajustados por medio de órdenes pequeños y moderados.

Evaluación y Selección de Modelos ARIMA

## Series: st_temp 
## ARIMA(0,0,4) with zero mean 
## 
## Coefficients:
##           ma1      ma2      ma3      ma4
##       -0.2269  -0.0702  -0.3092  -0.1950
## s.e.   0.0933   0.0897   0.1004   0.0888
## 
## sigma^2 = 0.8497:  log likelihood = -157.62
## AIC=325.24   AICc=325.77   BIC=339.14
## 
## Training set error measures:
##                       ME      RMSE      MAE      MPE     MAPE     MASE
## Training set -0.05398426 0.9061891 0.741948 118.4316 152.1878 0.836372
##                      ACF1
## Training set -0.009120172

#Análisis de los residuos del Modelo ARIMA(0,0,4)

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,4) with zero mean
## Q* = 24.317, df = 20, p-value = 0.2288
## 
## Model df: 4.   Total lags used: 24

## 
##  Shapiro-Wilk normality test
## 
## data:  m_st_temp$residuals
## W = 0.98698, p-value = 0.3123

## 
##  KPSS Test for Level Stationarity
## 
## data:  m_st_temp$residuals
## KPSS Level = 0.12895, Truncation lag parameter = 4, p-value = 0.1

Prueba de Ljung-Box: El p-value = 0.2288 > 0.05 indica que no hay evidencia de autocorrelación significativa en los residuos. Esto sugiere que el modelo logra capturar adecuadamente la dependencia temporal de la serie.

Shapiro-Wilk: El p-value = 0.3123 > 0.05 muestra que no se rechaza la normalidad de los residuos. Aunque la normalidad no es obligatoria para ARIMA, es un buen indicador de que el ajuste no presenta distorsiones severas.

KPSS: Con un p-value = 0.1 (mayor al nivel de significancia habitual 0.05), no se rechaza la hipótesis nula de estacionariedad en los residuos, indicando que el modelo ha eliminado adecuadamente cualquier tendencia o estructura no estacionaria.

En conclusión, el ARIMA(0,0,4) presenta residuos no autocorrelacionados, aproximadamente normales y estacionarios; por lo tanto, su ajuste es adecuado para la serie de temperatura promedio. Todo esto se refuerza con la compresión de los gráficos mostrados.

## Series: st_max 
## ARIMA(1,0,4) with zero mean 
## 
## Coefficients:
##           ar1     ma1      ma2      ma3      ma4
##       -0.7526  0.6048  -0.2722  -0.5759  -0.5907
## s.e.   0.1066  0.1092   0.0831   0.0882   0.0725
## 
## sigma^2 = 2.531:  log likelihood = -222.79
## AIC=457.57   AICc=458.32   BIC=474.25
## 
## Training set error measures:
##                       ME     RMSE      MAE MPE MAPE      MASE       ACF1
## Training set -0.07717333 1.557083 1.122635 NaN  Inf 0.6253094 0.02666473

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,4) with zero mean
## Q* = 23.209, df = 19, p-value = 0.2282
## 
## Model df: 5.   Total lags used: 24

## 
##  Shapiro-Wilk normality test
## 
## data:  m_st_max$residuals
## W = 0.90839, p-value = 5.924e-07

## 
##  KPSS Test for Level Stationarity
## 
## data:  m_st_max$residuals
## KPSS Level = 0.14153, Truncation lag parameter = 4, p-value = 0.1

Ljung-Box: El p-value = 0.2282 > 0.05 indica que no hay autocorrelación significativa en los residuos, lo cual valida el ajuste del modelo.

Shapiro-Wilk: El p-value = 5.9e-07 < 0.05 evidencia una fuerte desviación de la normalidad. Esto sugiere que los residuos no siguen una distribución normal, probablemente debido a valores extremos o asimetría. No invalida el modelo, pero es una advertencia sobre el comportamiento de los errores.

KPSS: Con p-value = 0.1, no se rechaza la hipótesis nula de estacionariedad. Esto indica que los residuos no presentan tendencias no explicadas por el modelo.

En conclusión el ARIMA(1,0,4) captura adecuadamente la estructura temporal de la serie de temperatura máxima y genera residuos estacionarios y no autocorrelacionados, aunque no normales, lo cual puede estar asociado a picos altos en la temperatura máxima como se observa en el anterior gráfico Q-Q plot.

Evaluación y Selección de Modelos SARIMA

## Series: st_temp 
## ARIMA(0,0,3)(2,0,0)[12] with zero mean 
## 
## Coefficients:
##           ma1     ma2      ma3    sar1    sar2
##       -0.3179  0.0215  -0.3237  0.1972  0.3012
## s.e.   0.0942  0.1136   0.1046  0.0911  0.1053
## 
## sigma^2 = 0.7668:  log likelihood = -152.38
## AIC=316.76   AICc=317.51   BIC=333.43
## 
## Training set error measures:
##                         ME      RMSE       MAE      MPE     MAPE      MASE
## Training set -0.0002295401 0.8570729 0.6604482 86.22668 121.8745 0.7445002
##                    ACF1
## Training set 0.04952033

## Series: st_max 
## ARIMA(0,0,3)(2,0,0)[12] with zero mean 
## 
## Coefficients:
##           ma1      ma2      ma3    sar1    sar2
##       -0.3120  -0.0501  -0.5215  0.0813  0.3545
## s.e.   0.0841   0.1079   0.0934  0.0852  0.1218
## 
## sigma^2 = 2.452:  log likelihood = -222.07
## AIC=456.14   AICc=456.89   BIC=472.81
## 
## Training set error measures:
##                      ME     RMSE      MAE MPE MAPE      MASE       ACF1
## Training set 0.02017017 1.532635 1.149052 NaN  Inf 0.6400237 0.07688629

Análisis de los residuos del Modelo ARIMA(0,0,3)(2,0,0)[12]

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,3)(2,0,0)[12] with zero mean
## Q* = 13.812, df = 19, p-value = 0.7945
## 
## Model df: 5.   Total lags used: 24

## 
##  Shapiro-Wilk normality test
## 
## data:  fit_temp$residuals
## W = 0.99098, p-value = 0.6301

## 
##  KPSS Test for Level Stationarity
## 
## data:  fit_temp$residuals
## KPSS Level = 0.056861, Truncation lag parameter = 4, p-value = 0.1

Ljung-Box: El p-value = 0.7945 > 0.05) indica que no existe autocorrelación significativa en los residuos, evidenciando que son ruido blanco.

Shapiro-Wilk: El p-value = 0.6301 > 0.05 muestra que no se rechaza la normalidad de los residuos, lo que indica una distribución bastante regular sin colas extremas relevantes.

KPSS: Con p-value = 0.1, no se rechaza la hipótesis nula de estacionariedad, lo cual sugiere que el modelo eliminó correctamente cualquier estructura no estacionaria presente.

Por lo tanto, el modelo SARIMA ajustado a la temperatura promedio presenta residuos que cumplen con los supuestos comunes, por lo que su ajuste es estadísticamente adecuado.

Análisis de los residuos del Modelo ARIMA(0,0,3)(2,0,0)[12]

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,3)(2,0,0)[12] with zero mean
## Q* = 20.322, df = 19, p-value = 0.3754
## 
## Model df: 5.   Total lags used: 24

## 
##  Shapiro-Wilk normality test
## 
## data:  fit_max$residuals
## W = 0.92106, p-value = 3.02e-06

## 
##  KPSS Test for Level Stationarity
## 
## data:  fit_max$residuals
## KPSS Level = 0.12731, Truncation lag parameter = 4, p-value = 0.1

Validación de los mejores modelos

Comparación de Métricas entre Modelos ARIMA y SARIMA
Modelo	AIC	BIC	RMSE	MAE
ARIMA - Temp Promedio	325.24	339.14	0.85	0.74
SARIMA - Temp Promedio	316.76	333.43	0.77	0.66
ARIMA - Temp Máxima	457.57	474.25	2.53	1.12
SARIMA - Temp Máxima	456.14	472.81	2.45	1.15

Al comparar los modelos ARIMA y SARIMA para ambas series (temperatura promedio y temperatura máxima), se observa que los modelos SARIMA presentan en general un mejor desempeño, especialmente para la serie de temperatura promedio. Esto se evidencia en valores menores de AIC y BIC, lo que indica un mejor equilibrio entre ajuste y complejidad del modelo.

En cuanto a las métricas de error, como RMSE y MAE, los modelos SARIMA también muestran valores más bajos para ambas series, lo cual refleja menores errores de predicción.

Previsiones de las Series

Para entender mejor esas estadísticas tenemos como complemento las siguientes gráficas y tablas de las previsiones realizadas con la función forecast a un nivel de confianza del 95%.

#Comparación de la series históricas vs pronóstico

Comparación Serie Observada vs. Pronóstico - Temp Promedio
Meses	Observado	Pronosticado
1	-0.08	-0.01246875
2	0.99	0.62173062
3	-1.54	-0.28331698
4	2.70	0.84485512
5	0.48	-0.19260313
6	1.58	0.32409969
7	1.29	0.68041668
8	-1.95	-0.72541831
9	-0.08	-0.13255108
10	-2.10	-0.71144566
11	0.26	-0.16225054
12	1.01	0.56058017
13	0.70	0.20839820
14	-0.56	-0.04608797
15	1.24	0.31765132
16	0.16	0.21479077
17	-1.71	-0.55307218
18	-0.77	-0.16803415
19	1.48	0.57998139
20	-0.70	-0.35390034
21	-0.55	-0.19181069
22	-0.40	-0.26077787
23	-1.22	-0.39948721
24	1.30	0.50213078

Comparación Serie Observada vs. Pronóstico - Temp Máxima
Meses	Observado	Pronosticado
1	0.6	0.314329834
2	2.3	1.034602206
3	0.6	-1.001398946
4	-4.5	-1.514028117
5	3.1	0.895790973
6	-0.7	-0.296926650
7	3.5	1.297690438
8	-2.0	-0.709025600
9	-0.1	0.005188461
10	-1.6	-0.746035342
11	-1.4	-0.536957661
12	0.1	0.263033832
13	1.9	0.699122886
14	0.8	0.367702172
15	0.6	0.131314492
16	1.0	0.231453378
17	-2.5	-0.813472573
18	-0.6	-0.236841725
19	0.7	0.353634568
20	0.0	-0.057629234
21	0.5	0.177678115
22	-2.2	-0.840565527
23	-0.5	-0.220900041
24	2.8	1.014015094

Con base a los resultados de las tablas se evidencia que los modelos ajustados logran capturar adecuadamente la dirección y magnitud general de las variaciones mensuales, mostrando una correspondencia razonable entre ambas series.

En la mayoría de los meses, los pronósticos mantienen el mismo sentido (aumento o disminución) que los valores observados y presentan diferencias moderadas, lo cual indica que los modelos poseen buena capacidad para reproducir el comportamiento global de las series. Sin embargo, se observan algunos meses en los que las diferencias son mayores, especialmente en la serie de temperatura máxima, reflejando que esta variable presenta una variabilidad más alta y episodios de valores extremos, lo cual dificulta una predicción completamente precisa.

Referencias

Ravaliya, J. (2016). US Unemployment Rate by County, 1990-2016. Kaggle.com. https://www.kaggle.com/datasets/jayrav13/unemployment-by-county-us/discussion?sort=undefined

Archila, E., Herrera, F., Suarez, H., Bermudez, D., & Cruz, A. (2023). Modelo lineal dinámico para estimar la tasa de desempleo en Bogotá DC. Comunicaciones en Estadística, 16(1), 73-86.

Tróchez González, J., & Valencia Cárdenas, M. (2014). Análisis de series temporales en el sector lácteo de Antioquia para detectar efectos de la apertura comercial. Revista Investigaciones Aplicadas

Nurkholis, Z. (2023). A Practical Guide to ARIMA with auto.arima Function in R. Medium. https://medium.com/@mouse3mic3/a-practical-guide-to-arima-with-auto-arima-function-in-r-252aa84232af

Cerón, J. (2023). RPubs - Aplicación modelo ARIMA. Rpubs.com. https://rpubs.com/stefens07/Arima

Bobbitt, Z. (2020). Ljung-Box test: Definition + example. Statology. https://www.statology.org/ljung-box-test/

Cerón, J. (2025). RPubs - Extracción de Señales y ARIMA. Rpubs.com. https://rpubs.com/stefens07/Arima_Micro

Ayllón Benítez, J. C. (2021). Análisis y predicción de la serie de tiempo del Índice Nacional de Precios al Consumidor (INPC) de México (Doctoral dissertation). http://193.122.196.39:8080/xmlui/handle/10521/4671

Ospino, J. O., & Granados, C. G. (2019). Evaluación del desempeño térmico de un prototipo con chimenea solar e intercambiador tierra-aire. REVISTA COLOMBIANA DE TECNOLOGIAS DE AVANZADA (RCTA), 1(33), 50-55.

Modelación de series de tiempo univariadas en el contexto económico y ambiental

Manuel Alfonso Rodríguez Ariño

2025-10-30

Capítulo 1

ANÁLISIS DEL DESEMPLEO EN LOS ESTADOS DE CALIFORNIA Y WHASHINGTOON. EE.UU 1992-2009

Introducción

Justificación de la elección de la base de datos

Descripción de la base de datos

Análisis descriptivo

Análisis de Series de Tiempo

Gráficas

Funciones de autocorrelación

Descomposiciones de las Series (Aditiva y Multiplicativa)

Pruebas de estacionariedad

Series diferenciadas

Gráficas Series diferenciadas

Evaluación y Selección de Modelos ARIMA

Evaluación y Selección de Modelos SARIMA

Análisis de los residuos del Modelo ARIMA(2,0,1)(1,1,1)[12]

Análisis de los residuos del Modelo ARIMA(0,0,2)(0,1,2)[12]

Validación de Modelos

Previsiones de las Series

Capítulo 2

Análisis Complementario: Dinámica Temporal de la Temperatura del aire en Valledupar

Descripción del conjunto de datos

Depuración y filtrado

Análisis de Series de Tiempo

Gráficas

Funciones de autocorrelación

Descomposiciones aditiva y multiplicativa

Pruebas de estacionariedad

Series diferenciadas

Gráficas series diferenciadas

Evaluación y Selección de Modelos ARIMA

Evaluación y Selección de Modelos SARIMA

Análisis de los residuos del Modelo ARIMA(0,0,3)(2,0,0)[12]

Análisis de los residuos del Modelo ARIMA(0,0,3)(2,0,0)[12]

Validación de los mejores modelos

Previsiones de las Series

Referencias