Punto - 1. Serie birth del paquete astsa

Se explora en la librería astsa los datos correspondientes a la serie de tiempo univariada birth. Se observa que la serie cuenta con 242 observaciones. Los datos reportados son los nacimientos vivos mensuales en Estados Unidos, reportados en miles. A continuación, se muestra una representación gráfica de las serie de tiempo birth. Se observa que hasta 1.960 la serie tiene marcada tendencia creciente. Se identifica una estacionareidad débil.

Las características generales de las series de tiempo pueden ser extraidas con los comandos start, end y frequency. Se observa que la serie de tiempo de nacimientos vivos en Estados Unidos inicia en \(1.948\), finaliza en \(1.979\) y la frecuencia es de \(12\), es decir mensual.

Para analizar gráficamente la serie de tiempo, se segrega en el componente estacional (seasonal), tendencia (trend) y de ruido (remainder).

Se observa en el componente estacional que los picos de nacimientos se presentan en agosto, es decir que su concepción puede estar asociada al periodo vacacional navideño. En contraste, el mes con menos nacimientos es febrero, cuyas concepciones se aproximan al periodo vacacional de junio.

En cuanto a la tendencia, se aprecia una tendencia creciente hasta 1.960, con un pico de \(399\) nacimientos en agosto de 1.970, luego empezaron a descender los nacimientos y volvieron a ascender en 1.968 con un segundo pico de \(332\) nacimientos en agosto de 1.970. El valor mínimo de nacimientos es de \(278\) en febrero de 1.974.

Por otra parte, se observa que la serie de tiempo tiene un componente residual o de ruido blanco, con valores en torno a \(0\).

Punto - 2. Datos del IPC

A continuación se analizan los datos del IPC, cuyos registros son mensuales desde enero de 2.000 hasta diciembre de 2.019.

Se observa que la serie de tiempo de la inflación en colombia registra valores desde el \(2.000\), finaliza en \(2.019\) y la frecuencia es de \(12\), es decir mensual. El menor valor registrado para el IPC es de -0.32% en agosto de 2016 y el mayor valor es de 2.3% en febrero de 2.000. Se identifica un comportamiento de estacionareidad fuerte.

Para analizar gráficamente el comportamiento de la inflación en el tiempo, se segrega en el componente estacional (seasonal), tendencia (trend) y de ruido (remainder).

Se observa en el componente estacional que los picos de la inflación se presentan en febrero, mientras que los valores más bajos se dan en julio. No se aprecia una tendencia con un comportamiento lineal ascendente o descendente. Por otra parte, se observa que la serie de tiempo tiene un componente residual o de ruido blanco, con valores en torno a \(0\).

Al revisar el boxplot y el gráfico polar se observa que el dato del IPC más alto es en el mes de febrero con una mediana cercana a 1%. Se aprecia un comportamiento ascendente en el último trimestre del año, llegando al punto más alto en febrero del año siguiente, a partir de ahí empieza a descender. Al revisar las cajas, puede apreciarse que los datos con excepción de marzo no presentan una distribución simétrica, se observa mayor dispersión en los datos de febrero y marzo.

Punto - 3. Simular un ruido blanco

Para simular un ruido blanco se tiene en cuenta que es una serie cuyo comportamiento debe ser permanentemente aleatorio y con media cero, varianza constante e incorrelacionada. El ruido blanco es el componente impredecible de la serie temporal. A continuación se presentan el comportamiento de datos simulados correspondientes a las características de un ruido blanco.

A continuación, se muestra el histograma del ruido blanco con datos simulados, donde se aprecia que los datos se corresponden con una distribución normal.

ACF - Autocorrelación Simple

Los datos simulados están entorno a una media de \(-0.0023\), adecuada pues es próxima a \(0\). Seguidamente se presenta el correlograma, en el cual se observa que no existe ningún coeficiente significativo (se encuentran por debajo de las bandas de Barlett, son casi cero), lo que indica que los datos son independientes; es decir, la serie simulada es incorrelacionada.

### PACF - Autocorrelación Parcial

Se observa que no existe tampoco autocorrelación parcial, al ser todos los coeficientes cercanos a 0 y menores a las bandas de Barlett.

### Prueba de hipótesis

Adicionalmente, es posible realizar la prueba de Ljung-Box para confirmar que es un ruido blanco. Se obtiene un p-value = 0.3466 que no permite rechazar la hipótesis nula y por tanto los datos tienen comportamiento de Ruido Blanco.

Punto 4 - Modelo autoregresivo

Los modelos autoregresivos son también llamados AR y como su nombre lo indican, regresan en si mismos. Quiere decir que la variable dependiente estará en un momento (t) posterior a la variable explicativa que se ubicará en un tiempo (t-1).

Finalmente la ecuación del modelo AR2 es:

xt=0.2(xt−1)+0.6(xt−2)+wt

Punto 5 - Modelo de media movil

Se generan 100 datos de un modelo cuyos parámetros sean -0.1 y 0.3. Es una aproximación común para series de tiempo univariadas. Se dice que es de media movil debido a que la variable de salida depende linealmente de los valores actuales y pasados de un termino estocastico.

Finalmente la ecuación del modelo es:

xt=μ+wt+(-0.1)wt−1+(0.3)2wt−2

Punto 6 - Serie de Tiempo Libre.

Se carga el dataframe ‘jobs’ que contiene la cantidad de procesos automatizados de la empresa X. Se cuenta con la información del 14-01-2022 al 14-07-2022 con un total de 307 registros de peridicidad diaria.

## NULL

## 
##  Augmented Dickey-Fuller Test
## 
## data:  jobsLt
## Dickey-Fuller = 0.95019, Lag order = 6, p-value = 0.99
## alternative hypothesis: stationary

El p <- value es > al indice de confianza 0.05 por lo que no hay evidencia para rechazar la hipotesis nula

## 
## ############################################### 
## # Augmented Dickey-Fuller Test Unit Root Test # 
## ############################################### 
## 
## Test regression none 
## 
## 
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -168.78  -28.91  -21.25   -7.48  801.65 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## z.lag.1      0.0017034  0.0003245   5.249 2.96e-07 ***
## z.diff.lag1  0.0422240  0.0588634   0.717    0.474    
## z.diff.lag2  0.0196939  0.0622636   0.316    0.752    
## z.diff.lag3 -0.0145273  0.0622699  -0.233    0.816    
## z.diff.lag4 -0.0284021  0.0621865  -0.457    0.648    
## z.diff.lag5 -0.0616170  0.0621975  -0.991    0.323    
## z.diff.lag6 -0.0498237  0.0622990  -0.800    0.425    
## z.diff.lag7 -0.0063050  0.0623495  -0.101    0.920    
## z.diff.lag8 -0.0597827  0.0622312  -0.961    0.338    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 81.53 on 289 degrees of freedom
## Multiple R-squared:  0.1522, Adjusted R-squared:  0.1258 
## F-statistic: 5.764 on 9 and 289 DF,  p-value: 2.265e-07
## 
## 
## Value of test-statistic is: 5.2493 
## 
## Critical values for test statistics: 
##       1pct  5pct 10pct
## tau1 -2.58 -1.95 -1.62

#Diferencia de la serie para eliminar estacionalidad y tendencia

Cuando se realiza la diferencia para eliminar la estacionariedad y la tendencia de la serie, el estadístico es:

## 
##  Augmented Dickey-Fuller Test
## 
## data:  diff(jobsLt)
## Dickey-Fuller = -7.8598, Lag order = 6, p-value = 0.01
## alternative hypothesis: stationary
## 
## ############################################### 
## # Augmented Dickey-Fuller Test Unit Root Test # 
## ############################################### 
## 
## Test regression none 
## 
## 
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -143.17  -10.33   -1.56   13.61  836.62 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## z.lag.1     -0.43244    0.12194  -3.546 0.000456 ***
## z.diff.lag1 -0.43754    0.12271  -3.566 0.000425 ***
## z.diff.lag2 -0.33488    0.12005  -2.790 0.005631 ** 
## z.diff.lag3 -0.27233    0.11554  -2.357 0.019094 *  
## z.diff.lag4 -0.22631    0.10960  -2.065 0.039839 *  
## z.diff.lag5 -0.21671    0.10265  -2.111 0.035614 *  
## z.diff.lag6 -0.19264    0.09386  -2.052 0.041033 *  
## z.diff.lag7 -0.12212    0.08181  -1.493 0.136584    
## z.diff.lag8 -0.10364    0.06254  -1.657 0.098556 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 85.05 on 288 degrees of freedom
## Multiple R-squared:  0.4361, Adjusted R-squared:  0.4184 
## F-statistic: 24.74 on 9 and 288 DF,  p-value: < 2.2e-16
## 
## 
## Value of test-statistic is: -3.5462 
## 
## Critical values for test statistics: 
##       1pct  5pct 10pct
## tau1 -2.58 -1.95 -1.62

Al realizar la diferencia de la serie de tiempo de jobsLt el nuevo estadisctico de prueba es inferior a 0.05 por lo que es posible confirmar que la serie no es estacionaria y por tanto hay evidencia para rechazar la hipotesis nula.

De acuerdo al gráfico ACF y PACF se sugiere un modelo MA-1 y un modelo AR 13 con diferencia de 1.

## 
## Call:
## stats::arima(x = jobsLt, order = c(13, 1, 0), fixed = c(NA, NA, NA, NA, NA, 
##     NA, NA, NA, NA, NA, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3     ar4     ar5     ar6     ar7      ar8     ar9
##       0.1047  0.0695  0.0414  0.0339  0.0020  0.0129  0.0505  -0.0022  0.0685
## s.e.  0.0562  0.0593  0.0591  0.0589  0.0588  0.0588  0.0587   0.0587  0.0588
##         ar10    ar11     ar12    ar13
##       0.0488  0.1454  -0.0095  0.1835
## s.e.  0.0588  0.0592   0.0598  0.0592
## 
## sigma^2 estimated as 6404:  log likelihood = -1775.76,  aic = 3579.51
## [1] 3631.641

Revisando los parametros significativos del modelo

Conforme a los resultados anteriores se revisan los parametros más singificativos del modelo:

##         ar1         ar2         ar3         ar4         ar5         ar6 
##  1.86341104  1.17179037  0.70080252  0.57461025  0.03377521  0.21919956 
##         ar7         ar8         ar9        ar10        ar11        ar12 
##  0.85947229 -0.03779901  1.16560306  0.83044523  2.45741294 -0.15914872 
##        ar13 
##  3.09948710
##         ar1         ar2         ar3         ar4         ar5         ar6 
## 0.031682693 0.121097882 0.241980275 0.282989247 0.486539248 0.413320606 
##         ar7         ar8         ar9        ar10        ar11        ar12 
## 0.195377507 0.484936329 0.122342846 0.203468335 0.007275256 0.436828517 
##        ar13 
## 0.001059682

Dentro del modelo propuesto, los coeficientes más importantes son arg1 - arg9 - arg13 debido a que los valores son inferiores al indice de confianza de 0.05, por lo anterior, se reemplazan los coeficientes y se realiza una nueva evaluación para obtener resultados finales.

## 
## Call:
## stats::arima(x = jobsLt, order = c(13, 1, 0), fixed = c(0, NA, NA, NA, NA, NA, 
##     NA, NA, NA, NA, 0, NA, 0))
## 
## Coefficients:
##       ar1     ar2     ar3     ar4     ar5     ar6     ar7     ar8     ar9
##         0  0.1131  0.0697  0.0496  0.0121  0.0196  0.0654  0.0163  0.0875
## s.e.    0  0.0605  0.0608  0.0609  0.0608  0.0607  0.0606  0.0605  0.0606
##         ar10  ar11    ar12  ar13
##       0.0901     0  0.0536     0
## s.e.  0.0601     0  0.0602     0
## 
## sigma^2 estimated as 6859:  log likelihood = -1785.89,  aic = 3593.78
## [1] 3634.741

Los parametros significativos son:

##       ar2       ar3       ar4       ar5       ar6       ar7       ar8       ar9 
## 1.8687171 1.1463625 0.8148439 0.1991504 0.3230432 1.0780623 0.2698151 1.4426021 
##      ar10      ar12 
## 1.4995985 0.8914245
##        ar2        ar3        ar4        ar5        ar6        ar7        ar8 
## 0.03131030 0.12627187 0.20789875 0.42113890 0.37344193 0.14092892 0.39374250 
##        ar9       ar10       ar12 
## 0.07507936 0.06737640 0.18670209