Punto - 1. Serie birth del paquete astsa
Se explora en la librería astsa los datos correspondientes a la serie de tiempo univariada birth. Se observa que la serie cuenta con 242 observaciones. Los datos reportados son los nacimientos vivos mensuales en Estados Unidos, reportados en miles. A continuación, se muestra una representación gráfica de las serie de tiempo birth. Se observa que hasta 1.960 la serie tiene marcada tendencia creciente. Se identifica una estacionareidad débil.
Las características generales de las series de tiempo pueden ser extraidas con los comandos start, end y frequency. Se observa que la serie de tiempo de nacimientos vivos en Estados Unidos inicia en \(1.948\), finaliza en \(1.979\) y la frecuencia es de \(12\), es decir mensual.
Para analizar gráficamente la serie de tiempo, se segrega en el componente estacional (seasonal), tendencia (trend) y de ruido (remainder).
Se observa en el componente estacional que los picos de nacimientos se presentan en agosto, es decir que su concepción puede estar asociada al periodo vacacional navideño. En contraste, el mes con menos nacimientos es febrero, cuyas concepciones se aproximan al periodo vacacional de junio.
En cuanto a la tendencia, se aprecia una tendencia creciente hasta 1.960, con un pico de \(399\) nacimientos en agosto de 1.970, luego empezaron a descender los nacimientos y volvieron a ascender en 1.968 con un segundo pico de \(332\) nacimientos en agosto de 1.970. El valor mínimo de nacimientos es de \(278\) en febrero de 1.974.
Por otra parte, se observa que la serie de tiempo tiene un componente residual o de ruido blanco, con valores en torno a \(0\).
Punto - 2. Datos del IPC
A continuación se analizan los datos del IPC, cuyos registros son mensuales desde enero de 2.000 hasta diciembre de 2.019.
Se observa que la serie de tiempo de la inflación en colombia registra valores desde el \(2.000\), finaliza en \(2.019\) y la frecuencia es de \(12\), es decir mensual. El menor valor registrado para el IPC es de -0.32% en agosto de 2016 y el mayor valor es de 2.3% en febrero de 2.000. Se identifica un comportamiento de estacionareidad fuerte.
Para analizar gráficamente el comportamiento de la inflación en el tiempo, se segrega en el componente estacional (seasonal), tendencia (trend) y de ruido (remainder).
Se observa en el componente estacional que los picos de la inflación se presentan en febrero, mientras que los valores más bajos se dan en julio. No se aprecia una tendencia con un comportamiento lineal ascendente o descendente. Por otra parte, se observa que la serie de tiempo tiene un componente residual o de ruido blanco, con valores en torno a \(0\).
Al
revisar el boxplot y el gráfico polar se observa que el dato del IPC más
alto es en el mes de febrero con una mediana cercana a 1%. Se aprecia un
comportamiento ascendente en el último trimestre del año, llegando al
punto más alto en febrero del año siguiente, a partir de ahí empieza a
descender. Al revisar las cajas, puede apreciarse que los datos con
excepción de marzo no presentan una distribución simétrica, se observa
mayor dispersión en los datos de febrero y marzo.
Punto - 3. Simular un ruido blanco
Para simular un ruido blanco se tiene en cuenta que es una serie cuyo comportamiento debe ser permanentemente aleatorio y con media cero, varianza constante e incorrelacionada. El ruido blanco es el componente impredecible de la serie temporal. A continuación se presentan el comportamiento de datos simulados correspondientes a las características de un ruido blanco.
A continuación, se muestra el histograma del ruido blanco con datos simulados, donde se aprecia que los datos se corresponden con una distribución normal.
ACF - Autocorrelación Simple
Los datos simulados están entorno a una media de \(-0.0023\), adecuada pues es próxima a \(0\). Seguidamente se presenta el correlograma, en el cual se observa que no existe ningún coeficiente significativo (se encuentran por debajo de las bandas de Barlett, son casi cero), lo que indica que los datos son independientes; es decir, la serie simulada es incorrelacionada.
###
PACF - Autocorrelación Parcial
Se observa que no existe tampoco autocorrelación parcial, al ser todos los coeficientes cercanos a 0 y menores a las bandas de Barlett.
###
Prueba de hipótesis
Adicionalmente, es posible realizar la prueba de Ljung-Box para confirmar que es un ruido blanco. Se obtiene un p-value = 0.3466 que no permite rechazar la hipótesis nula y por tanto los datos tienen comportamiento de Ruido Blanco.
Punto 4 - Modelo autoregresivo
Los modelos autoregresivos son también llamados AR y como su nombre lo indican, regresan en si mismos. Quiere decir que la variable dependiente estará en un momento (t) posterior a la variable explicativa que se ubicará en un tiempo (t-1).
Finalmente la ecuación del modelo AR2 es:
xt=0.2(xt−1)+0.6(xt−2)+wt
Punto 5 - Modelo de media movil
Se generan 100 datos de un modelo cuyos parámetros sean -0.1 y 0.3. Es una aproximación común para series de tiempo univariadas. Se dice que es de media movil debido a que la variable de salida depende linealmente de los valores actuales y pasados de un termino estocastico.
Finalmente la ecuación del modelo es:
xt=μ+wt+(-0.1)wt−1+(0.3)2wt−2
Punto 6 - Serie de Tiempo Libre.
Se carga el dataframe ‘jobs’ que contiene la cantidad de procesos automatizados de la empresa X. Se cuenta con la información del 14-01-2022 al 14-07-2022 con un total de 307 registros de peridicidad diaria.
## NULL
##
## Augmented Dickey-Fuller Test
##
## data: jobsLt
## Dickey-Fuller = 0.95019, Lag order = 6, p-value = 0.99
## alternative hypothesis: stationary
El p <- value es > al indice de confianza 0.05 por lo que no hay evidencia para rechazar la hipotesis nula
##
## ###############################################
## # Augmented Dickey-Fuller Test Unit Root Test #
## ###############################################
##
## Test regression none
##
##
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
##
## Residuals:
## Min 1Q Median 3Q Max
## -168.78 -28.91 -21.25 -7.48 801.65
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## z.lag.1 0.0017034 0.0003245 5.249 2.96e-07 ***
## z.diff.lag1 0.0422240 0.0588634 0.717 0.474
## z.diff.lag2 0.0196939 0.0622636 0.316 0.752
## z.diff.lag3 -0.0145273 0.0622699 -0.233 0.816
## z.diff.lag4 -0.0284021 0.0621865 -0.457 0.648
## z.diff.lag5 -0.0616170 0.0621975 -0.991 0.323
## z.diff.lag6 -0.0498237 0.0622990 -0.800 0.425
## z.diff.lag7 -0.0063050 0.0623495 -0.101 0.920
## z.diff.lag8 -0.0597827 0.0622312 -0.961 0.338
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 81.53 on 289 degrees of freedom
## Multiple R-squared: 0.1522, Adjusted R-squared: 0.1258
## F-statistic: 5.764 on 9 and 289 DF, p-value: 2.265e-07
##
##
## Value of test-statistic is: 5.2493
##
## Critical values for test statistics:
## 1pct 5pct 10pct
## tau1 -2.58 -1.95 -1.62
#Diferencia de la serie para eliminar estacionalidad y tendencia
Cuando se realiza la diferencia para eliminar la estacionariedad y la tendencia de la serie, el estadístico es:
##
## Augmented Dickey-Fuller Test
##
## data: diff(jobsLt)
## Dickey-Fuller = -7.8598, Lag order = 6, p-value = 0.01
## alternative hypothesis: stationary
##
## ###############################################
## # Augmented Dickey-Fuller Test Unit Root Test #
## ###############################################
##
## Test regression none
##
##
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
##
## Residuals:
## Min 1Q Median 3Q Max
## -143.17 -10.33 -1.56 13.61 836.62
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## z.lag.1 -0.43244 0.12194 -3.546 0.000456 ***
## z.diff.lag1 -0.43754 0.12271 -3.566 0.000425 ***
## z.diff.lag2 -0.33488 0.12005 -2.790 0.005631 **
## z.diff.lag3 -0.27233 0.11554 -2.357 0.019094 *
## z.diff.lag4 -0.22631 0.10960 -2.065 0.039839 *
## z.diff.lag5 -0.21671 0.10265 -2.111 0.035614 *
## z.diff.lag6 -0.19264 0.09386 -2.052 0.041033 *
## z.diff.lag7 -0.12212 0.08181 -1.493 0.136584
## z.diff.lag8 -0.10364 0.06254 -1.657 0.098556 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 85.05 on 288 degrees of freedom
## Multiple R-squared: 0.4361, Adjusted R-squared: 0.4184
## F-statistic: 24.74 on 9 and 288 DF, p-value: < 2.2e-16
##
##
## Value of test-statistic is: -3.5462
##
## Critical values for test statistics:
## 1pct 5pct 10pct
## tau1 -2.58 -1.95 -1.62
Al realizar la diferencia de la serie de tiempo de jobsLt el nuevo estadisctico de prueba es inferior a 0.05 por lo que es posible confirmar que la serie no es estacionaria y por tanto hay evidencia para rechazar la hipotesis nula.
De acuerdo al gráfico ACF y PACF se sugiere un modelo MA-1 y un modelo AR 13 con diferencia de 1.
##
## Call:
## stats::arima(x = jobsLt, order = c(13, 1, 0), fixed = c(NA, NA, NA, NA, NA,
## NA, NA, NA, NA, NA, NA, NA, NA))
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ar8 ar9
## 0.1047 0.0695 0.0414 0.0339 0.0020 0.0129 0.0505 -0.0022 0.0685
## s.e. 0.0562 0.0593 0.0591 0.0589 0.0588 0.0588 0.0587 0.0587 0.0588
## ar10 ar11 ar12 ar13
## 0.0488 0.1454 -0.0095 0.1835
## s.e. 0.0588 0.0592 0.0598 0.0592
##
## sigma^2 estimated as 6404: log likelihood = -1775.76, aic = 3579.51
## [1] 3631.641
Revisando los parametros significativos del modelo
Conforme a los resultados anteriores se revisan los parametros más singificativos del modelo:
## ar1 ar2 ar3 ar4 ar5 ar6
## 1.86341104 1.17179037 0.70080252 0.57461025 0.03377521 0.21919956
## ar7 ar8 ar9 ar10 ar11 ar12
## 0.85947229 -0.03779901 1.16560306 0.83044523 2.45741294 -0.15914872
## ar13
## 3.09948710
## ar1 ar2 ar3 ar4 ar5 ar6
## 0.031682693 0.121097882 0.241980275 0.282989247 0.486539248 0.413320606
## ar7 ar8 ar9 ar10 ar11 ar12
## 0.195377507 0.484936329 0.122342846 0.203468335 0.007275256 0.436828517
## ar13
## 0.001059682
Dentro del modelo propuesto, los coeficientes más importantes son arg1 - arg9 - arg13 debido a que los valores son inferiores al indice de confianza de 0.05, por lo anterior, se reemplazan los coeficientes y se realiza una nueva evaluación para obtener resultados finales.
##
## Call:
## stats::arima(x = jobsLt, order = c(13, 1, 0), fixed = c(0, NA, NA, NA, NA, NA,
## NA, NA, NA, NA, 0, NA, 0))
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ar8 ar9
## 0 0.1131 0.0697 0.0496 0.0121 0.0196 0.0654 0.0163 0.0875
## s.e. 0 0.0605 0.0608 0.0609 0.0608 0.0607 0.0606 0.0605 0.0606
## ar10 ar11 ar12 ar13
## 0.0901 0 0.0536 0
## s.e. 0.0601 0 0.0602 0
##
## sigma^2 estimated as 6859: log likelihood = -1785.89, aic = 3593.78
## [1] 3634.741
Los parametros significativos son:
## ar2 ar3 ar4 ar5 ar6 ar7 ar8 ar9
## 1.8687171 1.1463625 0.8148439 0.1991504 0.3230432 1.0780623 0.2698151 1.4426021
## ar10 ar12
## 1.4995985 0.8914245
## ar2 ar3 ar4 ar5 ar6 ar7 ar8
## 0.03131030 0.12627187 0.20789875 0.42113890 0.37344193 0.14092892 0.39374250
## ar9 ar10 ar12
## 0.07507936 0.06737640 0.18670209