Aplicación de modelos ARIMA y SARIMA a la previsión de Tarifas del servicio de gas natural en COLOMBIA.

Maria Daniela Morales Gutierrez

Universidad Nacional de Colombia
📧

Asignatura: Series de tiempo

Fecha: 24 de mayo de 2026


Introducción

El gas natural es un componente fundamental en materia energética global y local, no solo por su eficiencia térmica y menor impacto ambiental en comparación con otros combustibles fósiles, sino también por su rol crítico en el desarrollo industrial y el bienestar doméstico. En los mercados regulados de servicios públicos, la fijación y evolución de sus tarifas no responden al azar; están sujetas a dinámicas macroeconómicas, inflación, fluctuaciones de la oferta y la demanda, y marcos regulatorios gubernamentales que buscan garantizar tanto la asequibilidad para el usuario como la sostenibilidad financiera de las empresas distribuidoras.

El presente documento expone un análisis mediante series temporales de las tarifas aplicadas al sector del gas natural a través de la metodología de modelado ARIMA y SARIMA. Para capturar la heterogeneidad del comportamiento del sistema de tarifas, la investigación se enfoca en la evaluación y pronóstico de dos variables de naturaleza y comportamiento comercial muy distintos: el precio de la tarifa de consumo superior a \(20m^{3}\) (precio_mas) y el costo de reconexión al servicio (reinstalación).

A lo largo de este trabajo, se desarrolla un Análisis Exploratorio de Datos (EDA) que descompone la tendencia, los ciclos y la estacionalidad de ambas variables. Posteriormente, tras validar las propiedades de estacionariedad mediante la prueba de Dickey-Fuller Aumentada (ADF), se proponen, ajustan y contrastan tres estructuras competitivas de modelos Autorregresivos Integrados de Media Móvil (ARIMA y SARIMA). Finalmente, la validez interna de los modelos se somete a una rigurosa evaluación de residuos por medio de la prueba de Ljung-Box, garantizando proyecciones futuras estadísticamente óptimas y robustas que sirvan como herramientas críticas para la planeación financiera, la mitigación del riesgo comercial y la toma de decisiones estratégicas en el sector energético.

Objetivo General

Modelar y pronosticar el comportamiento de las tarifas de gas natural correspondientes al segmento de alto consumo (precio_mas) y a los costos de reinstalación del servicio (reinstalación), mediante el uso metodológico y riguroso de herramientas de análisis exploratorio y modelos estadísticos de series de tiempo (ARIMA/SARIMA), con el fin de proveer proyecciones robustas que mitiguen la incertidumbre financiera y regulatoria en el sector energético.

Objetivos específicos

Análisis Exploratorio de Datos

Con el propósito de comprender la estructura interna, el comportamiento y las propiedades estadísticas de las series temporales antes de proceder al proceso de modelamiento formal, se realizó un Análisis Exploratorio de Datos enfocado en dos componentes clave del sistema de tarifas de gas natural: el costo por derecho de reincorporación a la red (reinstalación) y la tarifa para los rangos superiores de alto consumo (precio_mas).

Debido a que la base de datos original contiene múltiples observaciones para un mismo periodo, se procedió a realizar una agregación matemática calculando el promedio mensual para cada año y mes. Esta decisión metodológica garantiza la continuidad de la frecuencia temporal y evita el “maltrato estadístico” que supondría sumar tarifas de periodos distintos, manteniendo así la escala real de los precios.

Tabla 1. Tarifas por mes y año de Gas Natural - Fuente: elaboración propia
ANO MES cargo_fijo precio_menos precio_mas conexion reinstalacion Fecha
2004 1 2605.528 332.0546 350.4057 340886.1 92805.87 2004 ene.
2004 2 2688.420 338.4110 353.8689 342376.4 105175.07 2004 feb.
2004 3 2740.756 336.9794 339.7049 342271.7 103568.58 2004 mar.
2004 4 2769.175 335.4078 359.6989 342589.6 106495.03 2004 abr.
2004 5 2539.416 359.5671 393.6895 342452.3 110896.10 2004 may.
2004 6 2394.903 381.3721 432.6011 342271.7 104382.36 2004 jun.
2004 7 2232.894 395.9021 441.7268 342181.9 101385.80 2004 jul.
2004 8 1961.602 409.0893 455.0555 341830.9 90479.29 2004 ago.
2004 9 2018.447 393.1667 435.2602 341738.3 96426.21 2004 sept.
2004 10 2047.390 406.0068 444.3963 341782.8 97423.34 2004 oct.
2004 11 1938.114 403.9187 415.8425 341738.3 96426.21 2004 nov.
2004 12 1906.732 404.8106 441.0611 341738.3 96426.21 2004 dic.
2005 1 2053.220 391.1000 434.7217 361428.4 123981.78 2005 ene.
2005 2 1934.895 417.3925 465.3924 362784.3 124879.99 2005 feb.
2005 3 1957.842 419.1875 467.8664 362758.5 115995.23 2005 mar.
2005 4 1961.339 422.5584 473.3251 362758.5 116023.05 2005 abr.
2005 5 1994.956 427.1538 478.4395 362907.0 117249.75 2005 may.
2005 6 1931.575 429.9229 477.2866 362758.5 116023.05 2005 jun.
2005 7 2033.537 423.5496 469.7645 363219.5 121429.73 2005 jul.
2005 8 1930.334 431.6551 478.5160 362758.5 116023.05 2005 ago.
2005 9 1928.835 436.2380 485.5967 362758.5 116023.05 2005 sept.
2005 10 1964.809 443.1475 495.8830 362758.5 116023.05 2005 oct.
2005 11 1924.994 459.8103 511.6922 362758.5 116023.05 2005 nov.
2005 12 2003.754 434.6033 485.2113 363047.6 119947.90 2005 dic.
2006 1 1883.753 460.0720 503.7188 380291.1 124784.24 2006 ene.
2006 2 1833.412 465.5137 507.9040 380300.9 124784.24 2006 feb.
2006 3 1859.600 474.3076 519.7853 380300.9 124784.24 2006 mar.
2006 4 1711.597 493.1353 527.6229 380300.9 124784.24 2006 abr.
2006 5 1698.891 503.0135 538.9447 380300.9 124784.24 2006 may.
2006 6 1703.073 512.8964 550.6303 380872.5 124784.24 2006 jun.
2006 7 1705.548 526.0187 569.1567 380872.5 124784.24 2006 jul.
2006 8 1706.713 513.7229 553.4808 380872.5 124784.24 2006 ago.
2006 9 1709.799 512.7736 553.4530 380872.5 124784.24 2006 sept.
2006 10 1713.497 518.6515 557.5640 380265.1 124103.91 2006 oct.
2006 11 1716.040 515.4688 551.7324 380850.8 124367.34 2006 nov.
2006 12 1707.630 512.9775 551.7565 380787.0 123033.55 2006 dic.
2007 1 1677.413 522.6777 528.3841 396068.7 142475.44 2007 ene.
2007 2 1684.844 533.1614 582.2553 398675.9 142973.89 2007 feb.
2007 3 1690.485 528.2297 576.4926 398675.9 142973.89 2007 mar.
2007 4 1708.410 622.7324 717.2778 398675.9 142973.89 2007 abr.
2007 5 1718.707 511.4375 557.2402 398675.9 142973.89 2007 may.
2007 6 1703.166 491.4336 532.8591 398675.9 142973.89 2007 jun.
2007 7 1689.237 507.4547 555.0226 396960.2 139461.17 2007 jul.
2007 8 1674.743 502.4828 551.6063 405617.8 139702.91 2007 ago.
2007 9 1674.199 529.2393 571.9202 405673.5 140058.44 2007 sept.
2007 10 1665.050 535.8502 583.7656 404985.5 138806.60 2007 oct.
2007 11 1663.852 532.8702 580.8831 404985.5 138806.60 2007 nov.
2007 12 1666.985 531.1563 576.5783 404985.5 138806.60 2007 dic.
2008 1 1662.397 554.6967 625.1551 425709.8 144001.38 2008 ene.
2008 2 1673.525 547.6932 601.9858 426333.3 144330.44 2008 feb.
2008 3 1680.352 566.1772 627.2197 426289.9 144001.38 2008 mar.
2008 4 1688.215 573.9425 634.7983 426289.9 144001.38 2008 abr.
2008 5 1668.837 590.4797 661.4341 425911.8 146103.80 2008 may.
2008 6 1667.233 591.0362 671.8801 425676.5 143844.09 2008 jun.
2008 7 1652.522 642.0872 709.0894 425195.3 144723.58 2008 jul.
2008 8 1656.385 633.2743 708.9548 424792.5 144016.03 2008 ago.
2008 9 1645.331 679.3873 765.7213 424606.1 141867.20 2008 sept.
2008 10 1665.707 724.5796 820.7194 424792.5 143515.01 2008 oct.
2008 11 1637.669 756.9872 861.8990 424426.0 141567.58 2008 nov.
2008 12 1634.808 754.9341 860.0616 426257.1 141699.75 2008 dic.
2009 1 1668.127 759.9225 884.3501 449729.4 147286.80 2009 ene.
2009 2 1672.334 790.9371 922.5359 454373.8 150358.65 2009 feb.
2009 3 1690.157 793.6637 929.9582 454244.2 149131.02 2009 mar.
2009 4 1690.402 800.1370 936.6096 454128.5 151327.17 2009 abr.
2009 5 1677.212 774.7805 906.0079 454062.6 148461.71 2009 may.
2009 6 1656.035 737.3283 860.7944 453949.1 146995.36 2009 jun.
2009 7 1654.217 727.1171 850.1067 453949.1 146995.36 2009 jul.
2009 8 1652.214 704.1823 822.0054 455662.0 146995.36 2009 ago.
2009 9 1622.257 715.9447 835.8192 454652.1 141746.24 2009 sept.
2009 10 1619.439 705.9929 824.4459 454652.1 141746.24 2009 oct.
2009 11 1634.617 711.1809 805.5199 454306.6 139352.29 2009 nov.
2009 12 1641.700 714.6278 807.7902 454883.3 140602.04 2009 dic.
2010 1 1688.330 750.4753 820.2751 454414.3 151125.92 2010 ene.
2010 2 1679.437 762.6609 833.5241 454763.2 150865.93 2010 feb.
2010 3 1689.033 774.4273 849.3356 454763.2 150750.03 2010 mar.
2010 4 1691.479 778.4588 859.2480 452728.3 150750.03 2010 abr.
2010 5 1695.808 782.5212 870.4593 452728.3 150750.03 2010 may.
2010 6 1686.594 799.0614 888.0376 453803.3 154531.83 2010 jun.
2010 7 1686.604 804.0250 897.7288 453136.3 154531.83 2010 jul.
2010 8 1688.582 789.1628 884.5882 452528.7 153085.93 2010 ago.
2010 9 1698.080 795.1216 898.7390 452618.1 155730.35 2010 sept.
2010 10 1660.363 825.0879 935.5644 452809.8 161715.31 2010 oct.
2010 11 1646.794 841.7941 955.8537 451793.9 160477.69 2010 nov.
2010 12 1641.259 891.0285 1024.3165 451277.9 161011.23 2010 dic.
2011 1 1652.124 936.0533 1040.5914 465536.4 163822.11 2011 ene.
2011 2 1643.975 946.9918 1060.0451 467153.4 159949.29 2011 feb.
2011 3 1657.446 963.7111 1068.2259 467238.2 158878.01 2011 mar.
2011 4 1658.644 981.6184 1096.6638 470624.2 157029.08 2011 abr.
2011 5 1674.697 997.5591 1114.4820 471196.4 155013.14 2011 may.
2011 6 1671.377 1011.6784 1119.2933 470205.3 154022.76 2011 jun.
2011 7 1674.034 1013.8097 1137.1338 470235.8 154027.88 2011 jul.
2011 8 1673.206 998.3244 1119.5286 470233.1 153628.08 2011 ago.
2011 9 1693.826 1028.0955 1153.8088 470477.6 151165.01 2011 sept.
2011 10 1702.744 1056.9589 1196.7897 470703.6 151116.60 2011 oct.
2011 11 1709.025 1061.9381 1193.9841 470490.4 151116.60 2011 nov.
2011 12 1715.062 1069.2301 1196.4950 471104.3 155682.43 2011 dic.
2012 1 1707.954 1061.7611 1195.6911 463638.1 157120.77 2012 ene.
2012 2 1713.260 1101.1617 1187.0695 466129.4 159481.39 2012 feb.
2012 3 1727.889 1082.5093 1231.4575 465951.5 157694.89 2012 mar.
2012 4 1719.841 1118.6791 1214.4717 470392.0 158492.53 2012 abr.
2012 5 1711.842 1097.3369 1180.3455 469448.8 157338.26 2012 may.
2012 6 1731.045 1099.1678 1181.9144 469642.2 157142.60 2012 jun.
2012 7 1699.169 1096.4209 1176.8507 479957.8 161866.01 2012 jul.
2012 8 1670.823 1111.3373 1159.9888 482064.9 161994.19 2012 ago.
2012 9 1671.277 1156.7131 1065.9107 481464.4 163330.49 2012 sept.
2012 10 1671.796 1175.0626 1181.6465 482336.6 162267.71 2012 oct.
2012 11 1666.670 1178.1398 1185.1347 482368.7 161206.31 2012 nov.
2012 12 1650.089 1205.8721 1120.7970 528850.8 168686.14 2012 dic.
2013 1 1692.497 1281.8823 1035.1580 553442.7 170677.83 2013 ene.
2013 2 1707.428 1110.6705 1027.8690 533616.5 166008.88 2013 feb.
2013 3 1712.346 1135.0311 1024.1157 533282.4 165530.88 2013 mar.
2013 4 1713.731 1213.1343 1148.4798 533025.4 164629.14 2013 abr.
2013 5 1716.888 1305.8578 1117.0577 556713.1 170505.61 2013 may.
2013 6 1718.484 1281.0952 1059.9365 556482.0 170024.89 2013 jun.
2013 7 1728.509 1284.2505 1040.7728 554131.1 168366.43 2013 jul.
2013 8 1735.463 1233.0021 1047.5038 541647.3 164757.18 2013 ago.
2013 9 1730.597 1289.5235 1038.4071 552699.6 167342.47 2013 sept.
2013 10 1710.657 1295.1024 1097.9106 560072.6 168574.94 2013 oct.
2013 11 1725.244 1316.3021 1086.9406 550066.5 167195.87 2013 nov.
2013 12 1725.606 1351.2321 1101.6375 563869.9 169498.66 2013 dic.
2014 1 1656.535 1411.0402 1206.1911 565493.4 167836.78 2014 ene.
2014 2 1664.909 1456.1392 1281.1770 568606.2 168076.10 2014 feb.
2014 3 1671.113 1477.2171 1249.2767 575491.2 169955.61 2014 mar.
2014 4 1669.620 1469.0829 1335.6324 571464.4 168895.87 2014 abr.
2014 5 1719.018 1478.3262 1269.6105 570451.8 168386.14 2014 may.
2014 6 1722.797 1461.8152 1262.8008 569556.6 166803.95 2014 jun.
2014 7 1720.358 1459.6904 1323.1731 562974.2 167371.80 2014 jul.
2014 8 1709.409 1461.3874 1352.8818 561169.3 166182.63 2014 ago.
2014 9 1707.122 1458.1533 1359.3329 564677.1 167374.29 2014 sept.
2014 10 1720.711 1484.3722 1341.6507 560008.2 165751.86 2014 oct.
2014 11 1714.750 1501.8146 1397.6815 556995.9 164672.56 2014 nov.
2014 12 1717.409 1524.6296 1417.4617 558361.0 165554.87 2014 dic.
2015 1 1712.098 1545.8579 1455.6130 561913.2 169890.09 2015 ene.
2015 2 1716.969 1718.2287 1488.7101 560292.8 171623.06 2015 feb.
2015 3 1780.253 1533.5728 1493.0550 560292.8 171623.06 2015 mar.
2015 4 1797.356 1548.9331 1491.5436 560292.8 171623.06 2015 abr.
2015 5 1795.568 1525.9538 1433.6791 566192.0 173080.09 2015 may.
2015 6 1807.825 1516.5907 1226.6196 566338.5 172951.17 2015 jun.
2015 7 1825.059 1539.0597 1271.7959 566449.7 172903.06 2015 jul.
2015 8 1830.711 1586.0961 1304.1560 563548.1 170813.37 2015 ago.
2015 9 1836.099 1646.0292 1339.1117 569258.1 171095.17 2015 sept.
2015 10 1877.319 1602.7056 1384.9195 486525.0 152955.35 2015 oct.
2015 11 1883.697 1563.5102 1394.8184 486345.6 153323.00 2015 nov.
2015 12 1895.786 1605.1699 1415.1737 486345.6 153323.00 2015 dic.
2016 1 1897.156 1681.9154 1391.8385 502089.6 154927.74 2016 ene.
2016 2 1887.312 1791.7521 1350.1733 597224.9 177987.38 2016 feb.
2016 3 1917.328 1803.6713 1383.0335 607520.1 180720.09 2016 mar.
2016 4 9358.818 1817.6236 1323.5365 604250.6 179756.25 2016 abr.
2016 5 1941.575 1781.9546 1279.1757 607017.0 180353.64 2016 may.
2016 6 2026.731 1905.6199 1274.3651 641321.1 189699.78 2016 jun.
2016 7 2034.092 1935.2767 1385.9163 640663.6 189699.78 2016 jul.
2016 8 2041.701 1903.3870 1392.4626 640253.1 190300.87 2016 ago.
2016 9 1986.117 1708.6311 1462.4896 521172.2 164273.20 2016 sept.
2016 10 1982.648 1706.3485 1330.4088 521286.7 161827.85 2016 oct.
2016 11 1987.328 1754.6794 1379.8225 521488.9 161874.54 2016 nov.
2016 12 1996.264 1772.7108 1395.7856 521819.1 159704.79 2016 dic.
2017 1 2001.282 1844.9887 1442.7714 533023.5 167940.56 2017 ene.
2017 2 2033.281 1841.2276 1273.3167 546173.6 171610.47 2017 feb.
2017 3 2077.250 1978.5087 1347.5023 546485.1 180094.99 2017 mar.
2017 4 2097.041 1869.6368 1367.6092 549860.2 178113.59 2017 abr.
2017 5 2107.698 1867.0437 1354.6514 551917.3 178932.62 2017 may.
2017 6 2121.393 1841.6929 1359.0745 551373.6 178710.94 2017 jun.
2017 7 2157.509 1837.5416 1401.3123 550790.8 180108.00 2017 jul.
2017 8 2113.845 1845.5030 1304.7732 558117.7 177699.33 2017 ago.
2017 9 2113.722 1884.5336 1283.4278 558342.2 177591.99 2017 sept.
2017 10 2112.421 1912.4926 1286.8625 558290.2 177591.99 2017 oct.
2017 11 2112.123 7443.0052 1402.0012 558290.2 232551.32 2017 nov.
2017 12 2169.428 2010.0426 1405.1831 560647.5 177319.81 2017 dic.
2018 1 2180.234 2027.6145 1393.5829 573199.7 182785.97 2018 ene.
2018 2 2201.260 1966.8410 1372.7328 578990.0 184390.77 2018 feb.
2018 3 2216.219 1896.9900 1286.8064 579752.6 184150.98 2018 mar.
2018 4 2240.857 2112.3013 1210.1245 676678.9 208521.67 2018 abr.
2018 5 2237.257 1852.1573 1294.2280 579693.3 189051.47 2018 may.
2018 6 2795.933 1875.1367 1294.3218 579807.0 189908.89 2018 jun.
2018 7 2238.028 1905.5931 1318.7679 579807.0 193455.44 2018 jul.
2018 8 2242.100 2164.0972 1250.5226 670917.1 210416.14 2018 ago.
2018 9 2233.872 2095.6952 1555.6953 664210.8 209063.27 2018 sept.
2018 10 2290.473 1995.4459 1664.8430 668076.8 211697.49 2018 oct.
2018 11 2247.287 2150.9711 1635.0446 668259.5 211024.34 2018 nov.
2018 12 2238.958 2231.2702 1680.9126 666269.5 210328.46 2018 dic.
2019 1 2207.475 2150.0223 1494.8449 600794.3 197737.99 2019 ene.
2019 2 2200.607 2180.6581 1376.3689 601594.5 193109.93 2019 feb.
2019 3 2254.721 2074.3004 1378.6101 600672.8 195077.81 2019 mar.
2019 4 2287.440 3530.5734 1413.2991 601523.6 198206.88 2019 abr.
2019 5 2296.695 2138.1716 1437.5533 599985.7 197139.70 2019 may.
2019 6 2293.242 2112.1665 1443.0518 602088.9 198691.14 2019 jun.
2019 7 2300.820 2591.5265 2159.7020 602366.8 197942.38 2019 jul.
2019 8 2291.160 2096.3948 1456.2594 601107.0 201821.64 2019 ago.
2019 9 2276.011 2071.0780 1494.2362 605179.9 206139.65 2019 sept.
2019 10 2302.079 2111.0612 1514.2566 598752.1 199322.34 2019 oct.
2019 11 2280.254 2079.2060 1509.5656 601392.6 201286.62 2019 nov.
2019 12 2285.625 2123.8511 1534.6823 599023.9 199071.12 2019 dic.
2020 1 2266.985 2117.8074 1335.8532 615140.1 202859.40 2020 ene.
2020 2 2282.574 2161.7674 1568.9988 621630.3 206539.07 2020 feb.
2020 3 2302.679 2170.3171 1632.1548 621880.0 203092.90 2020 mar.
2020 4 2314.188 2282.4441 1759.4409 618979.8 205687.18 2020 abr.
2020 5 2323.437 2265.5761 1755.5101 620406.5 204331.08 2020 may.
2020 6 2314.221 2234.8610 1666.5726 618961.8 203652.62 2020 jun.
2020 7 2295.069 4506.5946 1669.4122 619720.4 202543.59 2020 jul.
2020 8 2300.972 2213.8634 1814.1368 620109.7 203817.69 2020 ago.
2020 9 2294.748 2265.9906 1687.0340 620530.5 203737.15 2020 sept.
2020 10 2295.739 2301.3591 1703.4170 620955.2 197369.20 2020 oct.
2020 11 2297.616 2327.8647 1830.8033 620109.7 203817.69 2020 nov.
2020 12 2293.463 2315.7430 1646.4168 620492.8 202527.75 2020 dic.
2021 1 2292.236 2260.2405 1578.4148 627352.4 207863.77 2021 ene.
2021 2 2300.393 2294.4265 1624.7251 627306.2 205822.68 2021 feb.
2021 3 2308.476 2374.9165 1656.1186 628973.8 206265.23 2021 mar.
2021 4 2316.590 2453.0033 1700.2640 629665.8 206273.77 2021 abr.
2021 5 2326.700 2469.1427 1684.7293 629149.0 205135.06 2021 may.
2021 6 2355.867 2587.1210 1708.3368 629103.0 203379.23 2021 jun.
2021 7 2346.522 2595.1264 1715.6606 627277.5 203501.43 2021 jul.
2021 8 2354.611 2596.3669 1677.6246 629706.2 203375.44 2021 ago.
2021 9 2357.053 2677.4190 1680.3459 629389.5 204517.36 2021 sept.
2021 10 2365.497 2774.3893 1703.4512 629303.0 207366.79 2021 oct.
2021 11 2364.679 2801.2905 1720.3235 632998.2 204346.80 2021 nov.
2021 12 2380.436 2811.9143 1694.8716 630767.7 205096.53 2021 dic.
2022 1 2388.466 2881.2708 1925.0930 662692.9 211956.47 2022 ene.
2022 2 2424.167 2807.6995 2000.3429 659027.2 213542.32 2022 feb.
2022 3 2449.401 2819.1546 1830.4238 660990.2 212403.44 2022 mar.
2022 4 2444.588 2846.5670 1803.5395 658869.7 208895.90 2022 abr.
2022 5 2577.498 2938.5359 1873.3653 656679.7 233051.30 2022 may.
2022 6 2518.847 2872.7924 1850.3163 662751.7 211926.77 2022 jun.
2022 7 2530.280 2957.8566 1929.3874 662751.7 211926.77 2022 jul.
2022 8 2544.575 3022.6209 1963.4426 661664.0 211511.77 2022 ago.
2022 9 2562.555 3106.6245 1994.2278 662979.0 213508.92 2022 sept.
2022 10 2572.408 3216.5817 2071.9265 661122.4 217799.83 2022 oct.
2022 11 2591.193 3241.9348 2103.8344 659551.3 217386.55 2022 nov.
2022 12 2597.508 3238.0241 2129.2051 660585.9 216764.01 2022 dic.
2023 1 2615.486 3256.3452 2306.7748 717492.2 227843.11 2023 ene.
2023 2 2692.602 3096.1229 2312.3163 732569.2 233102.37 2023 feb.
2023 3 2746.449 3425.1224 2253.4605 735021.0 235740.54 2023 mar.
2023 4 2754.292 3467.0098 2344.4390 747318.8 234400.53 2023 abr.
2023 5 2743.337 3455.9318 2267.9191 757172.8 235200.56 2023 may.
2023 6 2594.028 3181.5514 2141.7302 736541.5 230522.82 2023 jun.
2023 7 2573.958 3225.9718 2155.7928 733728.4 237431.19 2023 jul.
2023 8 2529.326 2862.1815 2056.0803 732508.4 233260.04 2023 ago.
2023 9 2573.081 3094.6677 2101.2691 735495.1 229264.86 2023 sept.
2023 10 2698.398 1763.6132 2046.2062 711929.4 280424.07 2023 oct.

Estadísticas Descriptivas:

Para obtener una primera visión global de las series, se calcularon las estadísticas descriptivas fundamentales que resumen la tendencia central, la dispersión y los límites de los datos históricos de las variables a utilizar. Los resultados se presentan en las siguientes tablas resumen:

Tabla 2. Estadisticas tarifas por mes y año de reistalación - Fuente: elaboración propia
reinstalacion_Media reinstalacion_Mediana reinstalacion_DE reinstalacion_Min reinstalacion_Max
167465.7 165542.9 34212.15 90479.29 280424.1

La tarifa promedio de reinstalación fue \(519423\), lo que indica el costo promedio que deben asumir los usuarios para restablecer el servicio. La mediana (\(533449\)) es ligeramente superior a la media, lo que sugiere que existen algunos valores relativamente bajos que reducen el promedio general.

La desviación estándar (\(106418\)) refleja una variabilidad moderada en las tarifas de reinstalación. Esto significa que, aunque existe un valor promedio, los costos pueden diferir considerablemente dependiendo del período analizado, cambios regulatorios, inflación o ajustes tarifarios.

El rango entre el valor mínimo (\(340886\)) y el máximo (\(757173\)) evidencia diferencias importantes en las tarifas a lo largo del tiempo. En términos económicos, esto puede interpretarse como incrementos progresivos en los costos de reinstalación o cambios en la estructura tarifaria del servicio.

Tabla 3. Estadisticas tarifas por mes y año por alto consumo - Fuente: elaboración propia
precio_mas_Media precio_mas_Mediana precio_mas_DE precio_mas_Min precio_mas_Max
1176.315 1208.158 486.8203 339.7049 2344.439

En las tarifas asociadas al alto consumo de gas natural, el valor promedio fue \(1176\) por unidad tarifaria, mientras que la mediana fue de \(1208\). La cercanía entre ambos indicadores muestra que la distribución de los datos es relativamente estable, aunque con cierta presencia de valores bajos.

La desviación estándar \(486.82\) indica una dispersión considerable respecto al promedio. Esto significa que las tarifas de alto consumo presentan cambios importantes entre meses y años, posiblemente asociados a variaciones en el precio del gas, costos de transporte, regulación energética o condiciones del mercado.

El valor mínimo (\(339.70\)) y el máximo (\(2344.44\)) muestran una amplitud muy alta en las tarifas. Esto sugiere períodos donde el costo del consumo elevado aumentó significativamente, afectando especialmente a usuarios con mayor demanda de gas natural.

En terminos generales, las tarifas para usuarios de alto consumo muestran una mayor volatilidad y amplitud, indicando cambios más fuertes en el costo del servicio a través del tiempo, tambien, que la diferencia entre media y mediana en ambas tablas no es muy grande, lo cual sugiere que las distribuciones no presentan una asimetría extrema, esto permite concluir que el comportamiento tarifario del gas natural ha tenido variaciones relevantes tanto en el acceso al servicio como en el costo asociado a consumos superiores a \(20m^{3}\).

Histogramas

tnato para la tarifa de reinstalación como para la tarifa por alto consumo se presenta un histogra:
Figura 1. Histograma para la distribución de la Reinstalación - Fuente: Elaboración propia

Figura 1. Histograma para la distribución de la Reinstalación - Fuente: Elaboración propia

Al observar detalladamente el histograma de la variable reinstalacion, se hace evidente que los datos no siguen una distribución normal simétrica, sino que presentan un comportamiento multimodal. La acumulación de barras de frecuencia en niveles específicos (escalones definidos en torno a los \(120000\), \(150000\) y \(200000\)) demuestra que la tarifa no cambia de manera libre o fluida mes a mes según el mercado.

Desde la perspectiva del negocio y la regulación de servicios públicos, esta distribución multimodal representa el efecto escalón por indexación anual. Al tratarse de una tarifa administrativa fija por el servicio operativo de reabrir el suministro tras un corte, el costo se mantiene congelado durante el año fiscal y da un salto directo hacia el siguiente bloque de frecuencias cuando el regulador aplica los ajustes correspondientes por inflación. Las pocas observaciones en el extremo derecho reflejan los periodos más recientes, donde el cargo acumulado alcanza su valor máximo histórico.

Figura 2. Histograma para la distribución de la Conexión - Fuente: Elaboración propia

Figura 2. Histograma para la distribución de la Conexión - Fuente: Elaboración propia

El análisis visual del histograma para la variable precio del gas por consumo superior a 20m³ revela una distribución con una marcada asimetría positiva. La presencia de múltiples picos de frecuencia con una concentración primaria entre los \(1300\) y \(1400\), y picos secundarios en \(500\) y \(1700\), evidencia que la serie no sigue un comportamiento normal y cuenta con una alta variabilidad estructural.

Desde la perspectiva económica del sector de servicios públicos, esta distribución es el reflejo de una variable expuesta a las fuerzas del mercado y a shocks externos de oferta y demanda. Al tratarse de un rango de consumo elevado (asociado a sectores industriales y comerciales), la tarifa absorbe directamente la volatilidad de los precios indexados de la energía, los costos de generación y los factores climáticos.

Correlación

Figura 3. Correlación entre las variables - Fuente: Elaboración propia

Figura 3. Correlación entre las variables - Fuente: Elaboración propia

se realizó una matriz de correlación lineal. Los resultados arrojan un diagnóstico crítico para comprender la estructura de las series temporales evaluadas:

En conclusión, los hallazgos de este correograma justifican de manera robusta la posterior aplicación de filtros de diferenciación temporal en la etapa de modelado Box-Jenkins (ARIMA), dado que la alta correlación con la variable Fecha ratifica la presencia de un proceso no estacionario en niveles que debe ser purificado antes de realizar cualquier proyección estadística.

Boxplots y Estacionalidad

Este gráfico se utiliza específicamente para detectar si la variable sube o baja de forma sistemática en ciertos meses del año, es decir, para identificar estacionalidad.

Figura 4. Boxplot para el análisis de la tarifa de la reinstalación - Fuente: Elaboración propia

Figura 4. Boxplot para el análisis de la tarifa de la reinstalación - Fuente: Elaboración propia

Al evaluar el Boxplot agrupado por meses para la variable reinstalacion, se determina de manera contundente la ausencia de un componente estacional mensual en el costo del trámite. Las medianas se mantienen estables y alineadas entre los \(165000\) y \(170000\) de enero a diciembre, demostrando que la tarifa no experimenta incrementos ni contracciones sistemáticas asociadas a épocas específicas del año o fluctuaciones climáticas.

La homogeneidad en el tamaño de los rangos intercuartílicos y la longitud uniforme de los ‘bigotes’ mensuales refuerza la hipótesis de estabilidad intraanual. La marcada dispersión vertical observada en cada mes refleja exclusivamente el encarecimiento progresivo y escalonado de la tarifa a lo largo del horizonte histórico debido a los ajustes de indexación anual por inflación. Asimismo, se identifica un valor atípico (outlier) aislado en el mes de octubre que supera el umbral de los \(250000\), el cual responde a una perturbación puntual o ajuste tarifario extraordinario en el registro.

Este comportamiento plano y regular es plenamente consistente con la naturaleza económica de un cargo administrativo por servicio técnico regulado.

Figura 5. Boxplot para el análisis de la tarifa por alto consumo - Fuente: Elaboración propia

Figura 5. Boxplot para el análisis de la tarifa por alto consumo - Fuente: Elaboración propia

El análisis del Boxplot mensual para la tarifa por consumo superior a \(20m^{3}\) revela una estacionalidad leve en sus medidas de tendencia central, pero dinámicamente activa en sus estructuras de dispersión. A lo largo de los doce meses del año, las medianas muestran una oscilación sutil dentro del rango de los \(1200\) a \(1300\), registrando sus niveles más elevados durante los meses de septiembre y octubre.

Un hallazgo crítico se observa en el comportamiento del rango intercuartílico, los meses de septiembre y octubre no solo tienen medianas más altas, sino también cajas más alargadas y desplazadas hacia la parte superior. Esto demuestra un incremento estacional en los costos del recurso para el segmento de grandes consumidores durante el último trimestre del año.

Por otra parte, la longitud homogénea y persistente de los bigotes superiores, los cuales se extienden de manera sistemática hasta alcanzar valores cercanos a los \(2400\) en casi todos los meses y confirma que el riesgo de experimentar picos de precios altos por shocks de mercado es un fenómeno latente a lo largo de todo el año.

Metodología

Con el objetivo de aplicar modelos estocásticos lineales de predicción basados en la metodología Box-Jenkins, el primer paso metodológico consistió en la conversión y estructuración de los datos crudos en objetos formales de series de tiempo de frecuencia mensual (\(s = 12\)).

Matemáticamente, una serie de tiempo se define como un conjunto de observaciones ordenadas cronológicamente y espaciadas uniformemente en el tiempo, representado como:

\[(Y_t)_{t \in T} = \{Y_1, Y_2, \dots, Y_n\}\] Donde \(t\) indica el mes y año analizado, y \(T\) representa el periodo histórico total que abarcan nuestros datos desde el momento en que se empezó a registrar la información. \[t_0 = (\text{Año}_{\min}, \text{Enero})\].

Definición de los modelos

serie1 <- ts(Tarifas_ts$reinstalacion,
             start = c(min(Tarifas_ts$ANO), 1),
             frequency = 12)

serie2 <- ts(Tarifas_ts$precio_mas,
             start = c(min(Tarifas_ts$ANO), 1),
             frequency = 12)

Para este estudio, se estructuraron de manera independiente dos vectores observables condicionados bajo la misma ventana de tiempo y periodicidad:

  • Serie Temporal de la Tarifa de Reinstalación (\(Y_{1,t}\)): Representa la evolución mensual del cargo administrativo fijo indexado para el restablecimiento técnico del servicio de gas natural tras una suspensión o corte del suministro.

  • Serie Temporal de la Tarifa por Alto Consumo (\(Y_{2,t}\)): Representa el comportamiento del precio de la molécula de gas natural más transporte para el segmento de usuarios con demandas superiores a los 20m³, capturando la dinámica directa y la volatilidad del mercado energético industrial.

La regularización de ambas series a una frecuencia mensual constante (\(s = 12\)) constituye un requisito indispensable en la modelación econométrica clásica. Este proceso garantiza la correcta alineación temporal necesaria para evaluar de forma robusta la presencia de tendencias deterministas o estocásticas, la descomposición estructural y la posterior estimación de los rezagos en las funciones de autocorrelación ordinaria y parcial (ACF y FACP).

Descomposición STL: Tendencia, Estacionalidad y Residuos

En este caso el STL es una herramienta de diagnóstico visual, analizando tres componentes: tendencia de largo plazo, ciclo estacional anual y componente irregular.

Los resultados de la descomposición revelan hallazgos fundamentales:

Figura 6. Descomposición STL de la tarifa de reinstalación- Fuente: Elaboración propia

Figura 6. Descomposición STL de la tarifa de reinstalación- Fuente: Elaboración propia

  • Tendencia (trend): Se confirma la existencia de una tendencia de largo plazo no lineal y estrictamente creciente. En el contexto de los servicios públicos, esta dinámica refleja el impacto acumulativo de la inflación y las presiones macroeconómicas del mercado energético sobre el costo de la tarifa.

  • Estacionalidad (season_year): El algoritmo captura un patrón estacional anual altamente marcado, regular y persistente. Las contracciones y expansiones sistemáticas que ocurren con una periodicidad exacta de 12 meses demuestran que la tarifa responde a un comportamiento cíclico recurrente, el cual está directamente vinculado a las fluctuaciones estacionales de la demanda y la oferta del gas.

  • Componente Irregular (remainder): El análisis de los residuos de la descomposición advierte que la serie arrastra una importante carga de volatilidad aleatoria. La presencia de picos anormales extraordinarios como el visto a principios de 2017 y la inestabilidad observada en el tramo final evidencian que la serie está expuesta a choques externos de mercado que no pueden ser explicados ni capturados por una tendencia o estacionalidad de carácter puramente determinista.

Figura 7. Descomposición STL de la tarifa por alto consumo- Fuente: Elaboración propia

Figura 7. Descomposición STL de la tarifa por alto consumo- Fuente: Elaboración propia

Ahora, para la descomposición de la tarifa por alto consumo:

  • Componente de Tendencia (trend): la tendencia de la tarifa de consumo exhibe un carácter fluctuante. Se distinguen fases macroeconómicas claras: una expansión sostenida hasta 2012, un periodo de estabilización estructural entre 2012 y 2018, y un fuerte repunte posterior que culmina en una contracción al cierre de la serie histórica. Esta flexibilidad denota la vulnerabilidad del esquema tarifario industrial ante los ciclos de actividad económica y las condiciones de mercado.

  • Componente Estacional (season_year): El algoritmo captura un ciclo estacional anual de alta intensidad y oscilación, operando bajo un rango de variación neta de más de 50 unidades. La presencia de estas crestas y valles perfectamente periódicos aporta evidencia empírica contundente sobre la existencia de estacionalidad energética, donde el precio del recurso se ajusta sistemáticamente para asimilar las fluctuaciones en la demanda técnica estacional.

  • Componente Irregular (remainder): El residuo de la descomposición aporta el hallazgo más crítico desde la perspectiva de gestión del riesgo. Aunque se mantiene estable durante la mayor parte del registro histórico, la componente explota de forma abrupta a finales de 2019, registrando una anomalía estadística que escala hasta los +600 puntos. Este quiebre representa un choque exógeno severo e imprevisto en el mercado del gas natural, ajeno a la predictibilidad del calendario o la tendencia.

Al contrastar analíticamente los sistemas de escalas (barras de ponderación relativa), se concluye que mientras otras variables del sistema tarifario son dominadas de manera determinista por su tendencia, la tarifa por alto consumo se rige bajo una compleja interacción donde la estacionalidad y la propensión a shocks aleatorios en el residuo poseen un peso específico crítico.

Gráfica para modelar el comportamiento temporal del cargo por reinstalación

Figura 8. Serie temporal para la tarifa por reinstalacion - Fuente: Elaboración propia

Figura 8. Serie temporal para la tarifa por reinstalacion - Fuente: Elaboración propia

La serie arranca en su punto histórico más bajo en enero de 2004 y finaliza en su pico máximo histórico en 2023 alcanzando los. El crecimiento no es un ciclo que sube y baja de forma homogénea sino que se mueve permanentemente hacia arriba, lo que demuestra empíricamente que la serie no es estacionaria (su media cambia con el tiempo, vemos tambien en los periodos 2006-2007, 2008-2009. La línea se vuelve completamente horizontal (“plana”) durante muchos meses y luego da un salto vertical abrupto. Esto confirma de manera visual lo que sospechábamos en el histograma multimodal: la tarifa permanece congelada por periodos administrativos de un año fiscal y se actualiza en bloque de un mes a otro. Se observa un pico o anomalía muy fuerte hacia arriba a mediados de 2017, seguido de una corrección inmediata. Este es el outlier que generaba ruido en el residuo de la descomposición STL, a partir de 2021 y especialmente en 2022-2023, la pendiente de la gráfica se empina drásticamente. La tarifa pasa de estar cerca de los \(200000\) a dispararse casi a los \(280000\) en un periodo muy corto.

Gráfica para modelar el comportamiento temporal del cargo por alto consumo

El análisis visual de la Serie 2, que detalla la evolución mensual de la tarifa de consumo de gas natural para usuarios residenciales y comerciales con demandas superiores a los \(20m^{3}\) (Rango 21) durante el periodo 2004-2023, evidencia un comportamiento econométrico dinámico regido por las fuerzas de mercado.

Figura 9. Serie temporal para la tarifa por alto consumo - Fuente: Elaboración propia

Figura 9. Serie temporal para la tarifa por alto consumo - Fuente: Elaboración propia

en cuanto a lo que se observa, se tiene que la variable muestra una tendencia estocástica persistentemente alcista, partiendo de niveles inferiores a los \(500\) en el año 2004 hasta alcanzar cotizaciones que superan los \(2000\) hacia el cierre del horizonte muestral en 2023. Esta fluctuación de largo plazo confirma que la serie en niveles carece de una media constante, validando estadísticamente su naturaleza no estacionaria, además, a diferencia de la reinstalación, esta línea es muy inestable y dibuja curvas todo el tiempo. Esto ocurre porque es una tarifa comercial atada al mercado del gas. Cambia constantemente según la oferta del recurso, el clima (como las sequías) y la demanda de las grandes empresas, por último, Se identifican dos momentos críticos. El primero es un pico muy alto y aislado a finales de 2019, que duró poco tiempo y representó un problema técnico o regulatorio puntual. El segundo es la subida acelerada entre 2022 y 2023, causada por el encarecimiento mundial de los combustibles y la energía en ese periodo.

Test de Dickey-Fuller Aumentada

Un requisito fundamental en la metodología Box-Jenkins antes de entrenar un modelo ARIMA es garantizar que las series temporales sean estacionarias. Esto significa que sus propiedades estadísticas, como la media y la varianza, deben mantenerse constantes a lo largo del tiempo para que las predicciones sean confiables.

Para verificar esto de manera estadística y formal, se aplicó la prueba de Dickey-Fuller Aumentada (ADF) en ambas series (reinstalacion y precio_mas). Esta prueba evalúa si una serie tiene una raíz unitaria (lo que significa que no es estacionaria y que cambia con el tiempo) mediante el planteamiento de dos hipótesis:

  • Hipótesis Nula (\(H_0\)): La serie tiene raíz unitaria; por lo tanto, no es estacionaria (tiene tendencias o comportamientos inestables).
    -Hipótesis Alternativa (\(H_1\)): La serie sí es estacionaria (su promedio y varianza son estables en el tiempo).

La regla de decisión matemática se basa en el valor de probabilidad obtenido (\(p\text{-valor}\)), utilizando un nivel de significancia estándar del 5% (\(\alpha = 0.05\)):

  • Si el \(p\text{-valor}\) es mayor a 0.05, no se rechaza la hipótesis nula (\(H_0\)), lo que indica que la serie en niveles necesita ser transformada mediante diferenciación (\(d=1\)) para eliminar la tendencia antes de modelar.
  • Si el \(p\text{-valor}\) es menor a 0.05, se rechaza la hipótesis nula, concluyendo que la serie ya está lista y estabilizada para el análisis predictivo.

A continuación, se tomarán los valores de este test para ambas series

ADF serie 1 (reinstalación)

## 
##  Augmented Dickey-Fuller Test
## 
## data:  serie1
## Dickey-Fuller = -2.7803, Lag order = 6, p-value = 0.2478
## alternative hypothesis: stationary

El p-valor es mayor que la significancia \(0.24 > 0.05\) por lo que se tiene evidencia suficiente para no rechazar la hipotesis nula, es decir, la serie 1 es no estacionaria.

ADF Serie 2 (alto consumo)

## 
##  Augmented Dickey-Fuller Test
## 
## data:  serie2
## Dickey-Fuller = -2.5621, Lag order = 6, p-value = 0.3395
## alternative hypothesis: stationary

Una vez más, el p-valor es mayor que la significancia \(0.33 > 0.05\) por lo que se tiene evidencia suficiente para no rechazar la hipotesis nula, es decir, la serie 2 es no estacionaria.

Función de Autocorrelación(ACF) Serie de reinstalación

Figura 10. ACF para la tarifa por reinstalación - Fuente: Elaboración propia

Figura 10. ACF para la tarifa por reinstalación - Fuente: Elaboración propia

el ACF nos confirma de inmediato que la serie no es estacionaria, porque las barras bajan muy despacio en forma de rampa. Eso refleja la fuerte memoria y tendencia que tienen los datos.

Función de Autocorrelación Parcial (PACF) Serie de reinstalación

Figura 11. PACF para la tarifa por reinstalación - Fuente: Elaboración propia

Figura 11. PACF para la tarifa por reinstalación - Fuente: Elaboración propia

Por otro lado, en el PACF vemos que solo sobresale con fuerza la primera barra en el rezago 1 y luego se cortan de golpe. Esto nos da dos pistas clave para el modelo ARIMA: primero, reafirma que necesitamos aplicar una diferencia (\(d=1\)) para tumbar esa rampa del ACF; y segundo, sugiere que la serie tiene un fuerte componente autorregresivo de orden 1 o 2, porque el PACF se corta drásticamente después de esos primeros meses.

Se necesita que las series sean estacionarias por lo que se procede a sacar la primera diferencia para la primera serie:

## 
##  Augmented Dickey-Fuller Test
## 
## data:  serie1_diff
## Dickey-Fuller = -8.3901, Lag order = 6, p-value = 0.01
## alternative hypothesis: stationary

Ahora sí, el P-valor es menor que la significancia por lo que fue necesaria solo una diferencia para que la serie sea estacionaria.

Función de Autocorrelación (ACF) Serie de Alto consumo

Se puede sacar la misma conclusión que con la primera serie: el ACF nos confirma de inmediato que la serie no es estacionaria, porque las barras bajan muy despacio en forma de rampa. Eso refleja la fuerte memoria y tendencia que tienen los datos.

Función de Autocorrelación Parcial (PACF) Serie de Alto consumo

El PACF de la serie de consumo nos muestra un comportamiento muy limpio: un corte definitivo justo después del rezago 1. Esto nos indica que, aunque el precio de la molécula de gas fluctúe bastante en el mercado, tiene una memoria corta muy fuerte.El precio de hoy depende directamente del precio del mes pasado. Para el modelo ARIMA, esto es la pista clave de que la serie comparte la misma necesidad que la primera: se va a requerir una diferencia regular (\(d=1\)) para quitarle la tendencia de rampa al ACF, y el modelo candidato ideal tendrá un componente autorregresivo de orden 1 (AR(1)).

Ahora, aplicamos ls diferencia a la segunda serie

## 
##  Augmented Dickey-Fuller Test
## 
## data:  serie2_diff
## Dickey-Fuller = -8.1526, Lag order = 6, p-value = 0.01
## alternative hypothesis: stationary

Ahora sí, el P-valor es menor que la significancia por lo que fue necesaria solo una diferencia para que la serie sea estacionaria.

Selección de Modelos Candidatos (reinstalación)

Una vez confirmado mediante el análisis previo que la serie de tarifa de reinstalación requería transformaciones para estabilizar su media, se procedió a la etapa de identificación y estimación de los modelos predictivos bajo la metodología Box-Jenkins. Con el objetivo de garantizar la rigurosidad estadística y encontrar la estructura óptima de pronóstico, se diseñó una estrategia basada en tres enfoques de modelado competitivos:

Enfoque Automatizado (Modelo 1: Algoritmo auto.arima)

El primer paso consistió en ejecutar el algoritmo automatizado de Hyndman-Khandakar (auto.arima en R). Este procedimiento realiza una búsqueda exhaustiva y sistemática a través de múltiples combinaciones de órdenes autorregresivos (\(p\)), de diferenciación (\(d\)) y de medias móviles (\(q\)). El algoritmo selecciona automáticamente el modelo óptimo minimizando el Criterio de Información de Akaike Corregido (AICc), sirviendo como el punto de referencia (benchmark) base del estudio.

\[\Delta Y_t = c + \phi_1 \Delta Y_{t-1} + \phi_2 \Delta Y_{t-2} + \phi_3 \Delta Y_{t-3} + \phi_4 \Delta Y_{t-4} + \Phi_1 \Delta Y_{t-12} - (\phi_1\Phi_1 \Delta Y_{t-13} + \dots + \phi_4\Phi_1 \Delta Y_{t-16}) + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2}\] Donde:
\(\Delta Y_t\) es el cambio mensual en la tarifa de reinstalación.
\(c\) es la constante de deriva (drift) que captura el crecimiento lineal continuo.
\(\phi_1, \dots, \phi_4\) son los coeficientes autorregresivos regulares (meses pasados).
\(\Phi_1\) es el coeficiente autorregresivo estacional (mismo mes del año anterior).
\(\theta_1, \theta_2\) son los coeficientes de media móvil (corrección de errores pasados).
\(\varepsilon_t\) es el residuo actual (Ruido Blanco).

## Series: serie1 
## ARIMA(4,1,2)(1,0,0)[12] with drift 
## 
## Coefficients:
##           ar1     ar2     ar3      ar4     ma1      ma2    sar1     drift
##       -0.5821  0.4688  0.1204  -0.0936  0.0963  -0.8124  0.1798  641.6160
## s.e.   0.1028  0.1314  0.1080   0.0797  0.0793   0.0777  0.0766  155.8573
## 
## sigma^2 = 54809550:  log likelihood = -2444.37
## AIC=4906.74   AICc=4907.53   BIC=4937.95
## 
## Training set error measures:
##                    ME     RMSE      MAE        MPE     MAPE      MASE
## Training set 10.37262 7262.019 4064.424 -0.1378838 2.400999 0.4364889
##                      ACF1
## Training set 0.0003694145

Enfoque Teórico Basado en Evidencia (Modelo 2: ARIMA(1,1,1) Estándar)

A partir de las pistas visuales obtenidas en los análisis de autocorrelación previos donde el PACF sugería un fuerte peso del primer rezago y el ACF confirmaba la necesidad de una diferencia se propuso manualmente un modelo de control puramente regular de orden ARIMA(1,1,1). Este modelo asume que el comportamiento de la tarifa de reinstalación depende linealmente de su valor en el mes anterior (\(p=1\)), requiere una diferencia regular para eliminar la tendencia (\(d=1\)) y corrige los errores de predicción inmediatos mediante un término de media móvil (\(q=1\)).

\[(Y_t - Y_{t-1}) = c + \phi_1 (Y_{t-1} - Y_{t-2}) + \varepsilon_t + \theta_1 \varepsilon_{t-1}\]

Donde:
- \(\phi_1\) es el parámetro que mide el impacto directo del cambio de tarifa del mes anterior (\(Y_{t-1} - Y_{t-2}\)).
- \(\theta_1\) es el parámetro de media móvil que suaviza y corrige los Shocks o errores del mes pasado (\(\varepsilon_{t-1}\)).

## Series: serie1 
## ARIMA(1,1,1) 
## 
## Coefficients:
##          ar1      ma1
##       0.2639  -0.6635
## s.e.  0.1548   0.1235
## 
## sigma^2 = 59611986:  log likelihood = -2456.97
## AIC=4919.93   AICc=4920.04   BIC=4930.34
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE     MAPE    MASE       ACF1
## Training set 1461.094 7672.065 3986.495 0.7576864 2.335859 0.42812 -0.0443448

Enfoque de Complejidad Estacional (Modelo 3: SARIMA\((1,1,1)\)x\((1,1,1)_{12}\))

Finalmente, para evaluar si existían patrones o ciclos ocultos asociados a los meses del año que las gráficas descriptivas tradicionales no lograran capturar a simple vista, se planteó un modelo de máxima complejidad incorporando parámetros estacionales. Se configuró un modelo SARIMA \((1,1,1) \times (1,1,1)_{12}\), el cual añade una diferencia estacional (\(D=1\)), un componente autorregresivo estacional (\(P=1\)) y una media móvil estacional (\(Q=1\)) con una periodicidad de 12 meses, permitiendo contrastar matemáticamente si la inclusión de la estacionalidad aporta valor real al pronóstico o si genera una sobreparametrización innecesaria en una tarifa de naturaleza administrativa.La selección definitiva entre estos tres modelos candidatos se realizará en la sección de resultados evaluando los criterios de información (AIC y BIC), la significancia estadística de los coeficientes estimados y la ausencia de autocorrelación en los residuos mediante la prueba de Ljung-Box.

\[(1 - \phi_1 B)(1 - \Phi_1 B^{12})(1 - B)(1 - B^{12})Y_t = (1 + \theta_1 B)(1 + \Theta_1 B^{12})\varepsilon_t\]

## Series: serie1 
## ARIMA(1,1,1)(1,1,1)[12] 
## 
## Coefficients:
##          ar1      ma1    sar1     sma1
##       0.3064  -0.7830  0.1652  -0.9621
## s.e.  0.1193   0.0833  0.0915   0.1816
## 
## sigma^2 = 58290826:  log likelihood = -2341.4
## AIC=4692.81   AICc=4693.08   BIC=4709.89
## 
## Training set error measures:
##                     ME     RMSE      MAE        MPE     MAPE      MASE
## Training set -297.4404 7357.119 4031.304 -0.3916455 2.302308 0.4329321
##                    ACF1
## Training set -0.0100595

Decisión según el AIC

##         df      AIC
## modelo1  9 4906.736
## modelo2  3 4919.934
## modelo3  5 4692.809

Según el criterio de información Akaike, el mejor modelo es el tercero, puesto que es el de menor AIC, el elegido es el modelo SARIMA\((1,1,1) \times (1,1,1)_{12}\), ahora

Decisión según el BIC

##         df      BIC
## modelo1  9 4937.948
## modelo2  3 4930.338
## modelo3  5 4709.890

Según el criterio de información Bayesiano, el mejor modelo es el tercero, puesto que es el de menor BIC, el elegido es el modelo SARIMA\((1,1,1) \times (1,1,1)_{12}\).

Entonces, tanto para el criterio de información Akaike como el Bayesiano el mejor modelo para hacer previsiones es el el modelo 3.

Diagnóstico y Análisis de Residuos del Modelo Seleccionado

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,1,1)(1,1,1)[12]
## Q* = 27.697, df = 20, p-value = 0.1168
## 
## Model df: 4.   Total lags used: 24

Para validar la consistencia estadística del modelo SARIMA estimado, se procedió a evaluar el comportamiento de sus residuos a través de tres herramientas de diagnóstico visual:

  • Análisis de Autocorrelación (ACF): El gráfico de la función de autocorrelación de los residuos muestra que todos los coeficientes para los 36 rezagos evaluados se ubican estrictamente dentro de las bandas de confianza del 95% (líneas punteadas azules). Este resultado confirma la ausencia de autocorrelación serial, garantizando que los errores se comportan como un proceso de Ruido Blanco y que el modelo absorbió toda la dependencia temporal de la tarifa.

  • Evolución Temporal de los Errores: La serie de tiempo de los residuos evidencia un comportamiento centrado en cero, aunque presenta un incremento notable en su volatilidad a partir del año 2017. Los picos pronunciados al cierre del periodo histórico reflejan la dificultad matemática del modelo para predecir las fluctuaciones y choques exógenos severos del mercado energético en la post-pandemia.

  • Distribución y Normalidad: El histograma revela que la media de los errores es efectivamente cero, concentrando la mayor frecuencia en este punto. Sin embargo, la presencia de colas pesadas a la derecha (provocadas por los valores atípicos detectados en la gráfica temporal) genera una desviación respecto a la curva de distribución normal teórica (línea naranja).

En conjunto, el diagnóstico demuestra que, a pesar de la presencia de heterocedasticidad debido a la volatilidad reciente de la economía, el modelo cumple satisfactoriamente con el supuesto crítico de independencia en los residuos, validando su idoneidad para la fase de pronóstico.

Test de Ljung-Box Para reinstalación

Esta prueba plantea dos hipótesis muy sencillas sobre los errores del modelo:

  • Hipótesis Nula (\(H_0\)): Los residuos son independientes (son Ruido Blanco).
  • Hipótesis Alternativa (\(H_1\)): Los residuos están autocorrelacionados (tienen información atrapada).

Como p-valor \(= 0.1168\) es mayor que nuestra significancia estándar de \(0.05\), la regla estadística dice que NO rechazamos la Hipótesis Nula (\(H_0\)).

Previsión Modelo escogido

La estimación puntual (representada por la línea azul continua) sugiere que la tarifa no experimentará caídas bruscas ni crecimientos exponenciales desmedidos en el corto plazo. En su lugar, el modelo proyecta una estabilización en la parte superior del ciclo histórico, oscilando de forma madura sobre el umbral de los $250,000. Esto refleja que el modelo asimiló correctamente el freno en la aceleración inflacionaria tras los Shocks de los años previos, las zonas sombreadas en dos tonalidades de azul delimitan estadísticamente las bandas de fluctuación esperadas ante eventos imprevistos, el área interna (azul oscuro) ofrece un margen de seguridad del 80%, mientras que el área externa (azul claro) expande la cobertura al 95% de certeza.

En conclusión esta proyección se traduce en una herramienta de alto valor estratégico al definir con precisión los límites máximos y mínimos en los que se moverá el cobro del trámite técnico, se puede presupuestar ingresos y costos con un riesgo controlado, mitigando el impacto de la volatilidad económica general del sector.

Selección de Modelos Candidatos (Alto consumo)

Despues de verificar que la serie de tarifa de consumo requería estabilización mediante una primera diferencia regular (\(d=1\)), se plantearon tres estructuras competitivas bajo la metodología Box-Jenkins para seleccionar el mejor modelo de pronóstico:

Modelo 1 (Enfoque Automatizado): Se ejecutó el algoritmo auto.arima, el cual identificó de forma óptima un modelo regular ARIMA(2,1,1). Este modelo asume que el cambio en la tarifa hoy depende de los cambios ocurridos en los dos meses anteriores (\(p=2\)) y se corrige mediante el error del mes pasado (\(q=1\)).

\[\Delta Y_t = c + \phi_1 \Delta Y_{t-1} + \phi_2 \Delta Y_{t-2} + \varepsilon_t + \theta_1 \varepsilon_{t-1}\]

Donde:
\(\phi_1, \phi_2\) miden el peso de los dos meses anteriores.
\(\theta_1\) corrige el error del mes pasado.

## Series: serie2 
## ARIMA(2,1,1) with drift 
## 
## Coefficients:
##          ar1     ar2      ma1   drift
##       0.5373  0.1765  -0.9422  7.3328
## s.e.  0.1020  0.0873   0.0727  1.2195
## 
## sigma^2 = 7079:  log likelihood = -1385.07
## AIC=2780.14   AICc=2780.4   BIC=2797.48
## 
## Training set error measures:
##                       ME     RMSE      MAE        MPE     MAPE      MASE
## Training set -0.07736273 83.24626 47.89773 -0.4130421 3.890691 0.3367564
##                     ACF1
## Training set -0.01088928

Modelo 2 (Enfoque Teórico): Se planteó manualmente un modelo estructural ARIMA(1,1,1) regular, asumiendo una memoria más corta basada en el análisis previo del PACF.

\[\Delta Y_t = c + \phi_1 \Delta Y_{t-1} + \varepsilon_t + \theta_1 \varepsilon_{t-1}\]

## Series: serie2 
## ARIMA(1,1,1) 
## 
## Coefficients:
##          ar1      ma1
##       0.2239  -0.5792
## s.e.  0.1789   0.1539
## 
## sigma^2 = 7380:  log likelihood = -1390.8
## AIC=2787.6   AICc=2787.7   BIC=2798
## 
## Training set error measures:
##                    ME     RMSE      MAE      MPE    MAPE      MASE        ACF1
## Training set 13.40596 85.36392 49.74784 1.105556 4.07897 0.3497641 -0.03573439

Modelo 3 (Enfoque Estacional): Se configuró un modelo expandido SARIMA \((1,1,1) \times (1,1,1)_{12}\) para evaluar matemáticamente si las oscilaciones mensuales observadas en la tarifa responden a ciclos estacionales de mercado (como variaciones de oferta y demanda por épocas del año).

\[\Delta \Delta_{12} Y_t = \phi_1 \Delta \Delta_{12} Y_{t-1} + \Phi_1 \Delta \Delta_{12} Y_{t-12} - \phi_1 \Phi_1 \Delta \Delta_{12} Y_{t-13} + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \Theta_1 \varepsilon_{t-12} + \theta_1 \Theta_1 \varepsilon_{t-13}\]

Donde \(\Phi_1\) y \(\Theta_1\) capturan el comportamiento y los errores del mismo mes pero del año anterior (estacionalidad de 12 meses).

## Series: serie2 
## ARIMA(1,1,1)(1,1,1)[12] 
## 
## Coefficients:
##          ar1      ma1     sar1     sma1
##       0.4263  -0.7760  -0.0241  -1.0000
## s.e.  0.1418   0.1062   0.0696   0.0937
## 
## sigma^2 = 7090:  log likelihood = -1333.09
## AIC=2676.18   AICc=2676.45   BIC=2693.26
## 
## Training set error measures:
##                    ME     RMSE      MAE        MPE     MAPE      MASE
## Training set 1.428471 81.13657 46.29468 -0.1917877 3.669732 0.3254858
##                     ACF1
## Training set -0.02997543

Decisión según el AIC

##           df      AIC
## modelo1_2  5 2780.139
## modelo2_2  3 2787.599
## modelo3_2  5 2676.178

Según el criterio de información Akaike, el mejor modelo es el tercero, puesto que es el de menor AIC, el elegido es el modelo SARIMA\((1,1,1) \times (1,1,1)_{12}\), ahora:

Decisión según el BIC

##           df      BIC
## modelo1_2  5 2797.479
## modelo2_2  3 2798.003
## modelo3_2  5 2693.259

Diagnóstico y Análisis de Residuos del Modelo Seleccionado

El análisis de los residuos para el modelo SARIMA \((1,1,1) \times (1,1,1)_{12}\) aplicado a la serie de consumo mayor a \(20m^{3}\) presenta un comportamiento consistente, aunque condicionado por la naturaleza volátil de la variable:

  • Comportamiento Temporal: La evaluación del error a lo largo del tiempo muestra estabilidad en la mayor parte del periodo, con una excepción crítica ocurrida durante el año 2019. En este punto se registra un pico atípico de error (outlier) provocado por un shock exógeno en los precios comerciales del gas, lo que introduce un efecto de heterocedasticidad en la serie de residuos.

  • Evaluación de Autocorrelación (ACF): El gráfico ACF de los residuos se mantiene mayoritariamente dentro de las bandas de significancia estadística. La presencia de sutiles correlaciones en rezagos distantes (cercanos al periodo 20 y 34) es un reflejo de la alta sensibilidad de la demanda comercial, pero no invalida la capacidad predictiva global del modelo, el cual reduce significativamente la presencia de patrones sistemáticos en comparación con los modelos ARIMA regulares.

  • Distribución del Error: El histograma confirma que los residuos se agrupan con una media centrada en cero. No obstante, los eventos extremos de mercado detectados en la gráfica temporal generan colas pesadas en los extremos de la distribución, alejando levemente los residuos de la normalidad perfecta (curva naranja).

En conclusión, los diagnósticos visuales ratifican que el Modelo 3 ha logrado corregir la mayor parte de la estructura de dependencia temporal de una serie altamente fluctuante, consolidándose como un modelo estadísticamente apto y confiable para la toma de decisiones.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,1,1)(1,1,1)[12]
## Q* = 26.696, df = 20, p-value = 0.144
## 
## Model df: 4.   Total lags used: 24

Test Ljung-Box

Para dar validez matemática definitiva al diagnóstico de los residuos de la tarifa de consumo, se ejecutó la prueba formal de Ljung-Box considerando un horizonte de 24 rezagos y ajustando los grados de libertad (\(df = 20\)) en función de los parámetros del modelo.El test registró un estadístico \(Q^* = 26.696\) y un \(p\text{-valor} = 0.144\). Dado que este valor de probabilidad es superior al nivel de significancia del 5% (\(\alpha = 0.05\)), se concluye que no existe evidencia estadística para rechazar la hipótesis nula (\(H_0\)). Este hallazgo confirma numéricamente que las ligeras fluctuaciones observadas de forma aislada en el gráfico ACF de residuos no representan un patrón sistemático, sino que corresponden a variaciones aleatorias propias de un proceso de Ruido Blanco. Por lo tanto, el modelo ARIMA(1,1,1)(1,1,1)₁₂ queda formalmente validado, demostrando que posee la solidez teórica necesaria para proyectar de manera confiable los escenarios de consumo para el próximo periodo.

La predicción central (representada por la línea azul continua) indica que, tras el periodo de fuerte aceleración alcista observado entre los años 2021 y 2023, la tarifa entrará en una fase de estabilización madura. El modelo proyecta que el precio fluctuará de manera controlada sobre una meseta alta en torno a los \(2200\), absorbiendo la inercia del mercado sin simular quiebres estructurales injustificados, las áreas sombreadas en azul oscuro (intervalo de confianza del 80%) y azul claro (intervalo de confianza del 95%). Esta dispersión es metodológicamente consistente con la naturaleza comercial de la variable, cuya volatilidad histórica y sensibilidad a shocks de oferta y demanda incrementan la incertidumbre matemática en las proyecciones futuras.

En conclusión, el pronóstico obtenido constituye un insumo estratégico de alto valor para la gestión de riesgos. Al definir con rigor estadístico los límites superiores e inferiores esperados para el precio del consumo, se puede estructurar modelos de costos indexados y planes de contingencia financiera, asegurando la sostenibilidad operativa frente a la volatilidad intrínseca del sector energético.

Conclusión general

El análisis y modelado de las tarifas del servicio de gas natural, correspondientes a los conceptos de reinstalación y consumo mayor a 20m³ en el territorio nacional, permitieron estructurar un marco predictivo robusto bajo la metodología de Box-Jenkins. En primera instancia, la evaluación exploratoria de las series históricas determinó que ambos indicadores carecían de estacionariedad en media debido a marcadas tendencias alcistas de largo plazo y periodos de alta volatilidad estructural entre los años 2017 y 2023. La aplicación de una primera diferencia regular demostró ser un paso metodológico indispensable para remover dicha inercia temporal, transformando las variables en procesos estacionarios aptos para la estimación de modelos autorregresivos eficientes.

A pesar de que los algoritmos automatizados tradicionales sugirieron estructuras puramente regulares para mitigar las fluctuaciones de corto plazo, la evaluación competitiva demostró la superioridad teórica y práctica de incorporar parámetros estacionales. El modelo SARIMA \((1,1,1) \times (1,1,1)_{12}\) se consolidó como la aproximación óptima para ambas variables al registrar un equilibrio superior entre la parsimonia matemática y la capacidad de ajuste, minimizando sistemáticamente los criterios de información de Akaike y Bayesiano frente a las opciones alternativas. La validación formal de los residuos mediante la prueba de Ljung-Box ratificó la consistencia estadística de esta elección, arrojando probabilidades que confirman la independencia serial y el comportamiento de ruido blanco en los errores, lo cual garantiza que toda la estructura de memoria temporal fue capturada de manera correcta.

Finalmente, el ejercicio de prospectiva puso de manifiesto una divergencia crítica en la naturaleza económica de los dos conceptos evaluados a nivel país. Mientras que la tarifa de reinstalación proyecta un comportamiento futuro más controlado y con márgenes de incertidumbre estrechos por su vinculación a ajustes de carácter administrativo, la tarifa de consumo de gas refleja bandas de confianza notablemente más amplias, exponiendo la sensibilidad intrínseca de esta variable frente a los choques de oferta, demanda y volatilidad comercial del sector energético. De este modo, la construcción de previsiones centralizadas y sus respectivos escenarios probabilísticos se establecen como un insumo técnico de alta confiabilidad, sustituyendo los criterios intuitivos por un respaldo estadístico riguroso idóneo para la planeación financiera, la mitigación del riesgo y el análisis regulatorio del mercado de combustibles.

Referencias

  1. Superintendencia de Servicios Públicos Domiciliarios. (2024). Tarifas de Gas Natural por Red - Empresas de Colombia [Conjunto de datos]. Datos Abiertos Colombia. https://www.datos.gov.co/d/ek3f-5wn4

  2. Hebsiba Beula, D., Srinivasan, S., & Nanda Kumar, C. D. (2021). PREDICTION OF CLIMATE CHANGE USING ARIMA MODEL. Departamento de Matemáticas y Ciencias Actuariales, Instituto de Ciencia y Tecnología B S Abdur Rahman Crescent.

  3. Box, G. E. P., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: Forecasting and control (5th ed.). John Wiley & Sons.

  4. Ljung, G. M., & Box, G. E. P. (1978). On a measure of lack of fit in time series models. Biometrika, 65(2), 297–303. https://doi.org/10.2307/2335207

  5. Hyndman, R. J., & Athanasopoulos, G. (2021). Forecasting: Principles and practice (3rd ed.). OText. https://otexts.com/fpp3/

  6. Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19(6), 716–723. https://doi.org/10.1109/TAC.1974.1100705

  7. Dickey, D. A., & Fuller, W. A. (1979). Distribution of the estimators for autoregressive time series with a unit root. Journal of the American Statistical Association, 74(366a), 427–431. https://doi.org/10.1080/01621459.1979.10482531