Introducción

Sector Económico: Construcción y Actividades Inmobiliarias El sector de la construcción es uno de los principales motores de la economía colombiana, no solo por su contribución al Producto Interno Bruto (PIB), sino por su capacidad para generar empleo y dinamizar otros 36 sectores productivos a través de encadenamientos hacia atrás (insumos como cemento y acero) y hacia adelante (servicios financieros e inmobiliarios). Este sector se caracteriza por ser altamente procíclico, lo que significa que su desempeño está íntimamente ligado al crecimiento económico general y a la confianza de los consumidores.

Constructora Jaramillo Mora S.A. es una de las compañías más emblemáticas y sólidas en el sector de la construcción y el desarrollo inmobiliario en el suroccidente colombiano. Con más de 50 años de trayectoria, la empresa ha transformado el paisaje urbanístico de Cali y su área de influencia, especializándose en proyectos residenciales que van desde la Vivienda de Interés Social (VIS) hasta complejos habitacionales de lujo. Su capacidad de adaptación a los ciclos económicos y su enfoque en la innovación constructiva la han posicionado como un referente de calidad y cumplimiento en el Valle del Cauca.

Metodología

El análisis del entorno macroeconómico y sectorial es vital para una constructora, ya que su operación es altamente sensible a las fluctuaciones en las tasas de interés, la disponibilidad de insumos y la confianza de los hogares. En este documento, realizaremos un análisis técnico basado en la extracción de señales de cinco variables económicas clave entre 2012 y 2024, utilizando el software estadístico R.

El enfoque metodológico se divide en dos fases fundamentales. En primer lugar, se busca desglosar las series de tiempo en sus componentes de tendencia, estacionalidad y residuo mediante la técnica STL (Seasonal and Trend decomposition using Loess). Este paso permite identificar la “dirección real” del sector en la región, eliminando el ruido estacional y los choques de corto plazo.

En segundo lugar, y como eje central de la capacidad prospectiva de este estudio, se implementa el modelado estocástico ARIMA (AutoRegressive Integrated Moving Average). A diferencia del análisis descriptivo, el modelo ARIMA permite capturar la memoria histórica y la estructura de autocorrelación de la serie de licencias de construcción en Cali. Mediante este modelo, se busca generar un pronóstico robusto para el primer trimestre de 2026, proporcionando una visión estratégica sobre la dinámica futura del mercado inmobiliario.

Este enfoque integral proporcionará a Jaramillo Mora S.A. herramientas valiosas para orientar la toma de decisiones en la planeación de nuevos lanzamientos, la gestión de inventarios y la mitigación de riesgos financieros. Al combinar la descomposición histórica con la precisión predictiva del modelo ARIMA, este documento ofrece una hoja de ruta basada en datos para navegar la volatilidad del sector y anticipar los ciclos de inversión en el suroccidente colombiano.

Instalar/Cargar librerias necesarias para el análisis

#Cargar librerías necesarias
library(readxl)  # Para leer archivos Excel
library(tseries)  # Para pruebas de estacionariedad
library(forecast)  # Para modelado ARIMA y pronósticos
library(ggplot2)  # Para visualización de datos
library(plotly)  # Para gráficos interactivos
library(timetk)   #timetk simplifica y acelera el análisis exploratorio, visualización, y preparación de datos temporales para modelado. Es ideal para quienes trabajan con series temporales en un flujo de trabajo "tidy" y buscan integrar análisis visuales, detección de patrones y forecasting en un solo paquete.

Cargar base de datos

library(readxl)
data_col <- read_excel("C:/Users/xhann/Downloads/Base Caso2 (4).xlsx", col_types = c("date", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric", "numeric", "numeric", "numeric", 
    "numeric"))

Variables

Para evaluar el desempeño de la empresa y su entorno, se han seleccionado cinco variables que cubren el ciclo completo de la construcción (planeación, costos, demanda y ejecución):

Variable 1: Licencias de Construcción en Cali - LICC_CALI: Permite capturar señales sobre la evolución del ciclo económico del sector, ya que los permisos de construcción son indicadores que reflejan la intención de inversión y el volumen de obra proyectado

# Convertir Licencias de Construcción Cali en serie de tiempo mensual
licc_cali_ts <- ts(data_col$LICC_CALI, start = c(2012, 1), frequency = 12)

Variable 2: Producción de Concreto (Nacional): Por ser el concreto uno de los insumos más importantes para el sector de la construcción, tanto para la mayoría de las obras civiles, que se realizan en el país (carreteras, puentes, represas, etc.), como también para la construcción de edificaciones, en sus primeras etapas constructivas; el indicador de la producción de concreto se constituye como un potencial indicador líder del sector. Se interpreta explícitamente como medida de la actividad constructiva en ejecución.

# Convertir Producción de Concreto en serie de tiempo mensual
concreto_ts <- ts(data_col$CONCRETO, start = c(2012, 1), frequency = 12)

Variable 3: Despachos de Cemento en el Valle - CEM_V: Al ser una variable regional, nos permite ver si el ritmo de construcción en el Valle del Cauca se mantiene fuerte, independientemente del promedio nacional. Es ariable crítica para entender el ciclo económico del Valle del Cauca y su impacto en la empresa, ya que un aumento en los despachos de cemento suele ser un indicador de mayor actividad constructiva.

# Convertir Despachos de Cemento Valle en serie de tiempo mensual
cem_v_ts <- ts(data_col$CEM_V, start = c(2012, 1), frequency = 12)

Extracción de señales

A continuación, se realiza la descomposición de las series temporales para identificar la tendencia real, los ciclos estacionales y los eventos atípicos (residuos) que afectan al sector de la construcción en Cali y el Valle.

Variable 1: Licencias de Construcción en Cali (LICC_CALI)

# Graficar serie original
data_col$licc_cali_val <- as.numeric(licc_cali_ts)

grafico_licc <- ggplot(data_col, aes(x = seq.Date(from = as.Date("2012-01-01"), by = "month", length.out = nrow(data_col)), 
                                     y = licc_cali_val)) +
  geom_line(color = "blue", linewidth = 0.4) + 
  geom_point(color = "black", size = 0.1) +
  ggtitle("LICC_CALI: Serie Original (Área Aprobada)") +
  xlab("Tiempo") + ylab("Metros Cuadrados") + theme_minimal()

ggplotly(grafico_licc)

# Descomposición STL

library(forecast)
licc_cali_clean <- na.interp(licc_cali_ts)

# 2. Ahora sí, aplicar la descomposición STL
stl_licc <- stl(licc_cali_clean, s.window = "periodic")

# 3. Continuar con la creación del data frame para graficar
stl_df_licc <- data.frame(
  Time = rep(time(licc_cali_clean), 4),
  Value = c(stl_licc$time.series[, "seasonal"], 
            stl_licc$time.series[, "trend"], 
            stl_licc$time.series[, "remainder"], 
            licc_cali_clean),
  Component = rep(c("Estacional", "Tendencia", "Residuo", "Serie Original"), each = length(licc_cali_clean))
)

p1 <- ggplot(stl_df_licc, aes(x = Time, y = Value, color = Component)) +
  geom_line() + facet_wrap(~Component, scales = "free_y", ncol = 1) + 
  theme_minimal() + labs(title = "Señales Extraídas: Licencias de Construcción Cali")
ggplotly(p1)

En los últimos años, la serie de área aprobada para licencias de construcción en Cali muestra alta volatilidad, con variaciones fuertes entre meses y varios picos pronunciados de metros cuadrados aprobados. A pesar de algunos periodos con niveles bajos, hacia el final de la serie se observa un incremento significativo con el valor más alto del periodo, lo que sugiere una recuperación reciente en la actividad constructora. Este comportamiento indica que el sector ha experimentado fluctuaciones importantes, posiblemente asociadas a la aprobación de proyectos de gran escala en momentos específicos.

En los últimos años, la descomposición de la serie de licencias de construcción en Cali muestra que la tendencia presenta una recuperación marcada hacia el final del periodo, luego de una caída alrededor de 2022–2023 (que podría ser explicada por la nueva politica territorial de la Alcaldía Eder). La estacionalidad se mantiene constante, con picos que se repiten cada año, lo que indica que la aprobación de licencias continúa concentrándose en los últimos meses del año. Además, los residuos muestran fluctuaciones importantes, reflejando choques o variaciones puntuales en algunos periodos recientes que no se explican únicamente por la tendencia ni por el patrón estacional. En conjunto, esto sugiere un reforzamiento reciente del sector con alta variabilidad mensual.

Variable 2: Producción de Concreto (CONCRETO)

# 1. Gráfico de la serie original
data_col$concreto_val <- as.numeric(concreto_ts)

grafico_concreto_orig <- ggplot(data_col, aes(x = seq.Date(from = as.Date("2012-01-01"), by = "month", length.out = nrow(data_col)), 
                                         y = concreto_val)) +
  geom_line(color = "darkgreen", linewidth = 0.4) + 
  geom_point(color = "black", size = 0.1) +
  ggtitle("CONCRETO: Serie Original (Producción Nacional)") +
  xlab("Tiempo") + ylab("Metros Cúbicos") + theme_minimal()

ggplotly(grafico_concreto_orig)

# Descomposición STL
stl_concreto <- stl(concreto_ts, s.window = "periodic")
stl_df_concreto <- data.frame(
  Time = rep(time(concreto_ts), 4),
  Value = c(stl_concreto$time.series[, "seasonal"], stl_concreto$time.series[, "trend"], 
            stl_concreto$time.series[, "remainder"], concreto_ts),
  Component = rep(c("Estacional", "Tendencia", "Residuo", "Serie Original"), each = length(concreto_ts))
)

p2 <- ggplot(stl_df_concreto, aes(x = Time, y = Value, color = Component)) +
  geom_line() + facet_wrap(~Component, scales = "free_y", ncol = 1) + 
  theme_minimal() + labs(title = "Señales Extraídas: Producción de Concreto Nacional")
ggplotly(p2)

En la serie original se puede observar un choque fuerte por efecto de la pandemia. La estacionalidad muestra picos recurrentes, lo que sugiere que la producción de concreto tiene patrones cíclicos relacionados con la demanda en ciertos meses del año lo que se relaciona con lo visto anteriormente en el otorgamiento de Licencias. La tendencia indica un posible decrecimiento en la actividad constructiva a nivel nacional hacia finales del año 2024 lo que podría indicar una caída en la demanda de concreto.

Variable 3: Cemento en el Valle (CEM_V)

# Preparar vector numérico para graficar la serie original
data_col$cem_v_val <- as.numeric(cem_v_ts)

# Crear el gráfico de la serie original
grafico_cem_v_orig <- ggplot(data_col, aes(x = seq.Date(from = as.Date("2012-01-01"), by = "month", length.out = nrow(data_col)), 
                                         y = cem_v_val)) +
  geom_line(color = "indianred", linewidth = 0.4) + 
  geom_point(color = "black", size = 0.1) +
  ggtitle("CEM_V: Serie Original (Despachos de Cemento en el Valle)") +
  xlab("Tiempo") + 
  ylab("Toneladas") + 
  theme_minimal()

# Convertir a gráfico interactivo
ggplotly(grafico_cem_v_orig)

# Descomposición STL
stl_cem_v <- stl(cem_v_ts, s.window = "periodic")
stl_df_cem_v <- data.frame(
  Time = rep(time(cem_v_ts), 4),
  Value = c(stl_cem_v$time.series[, "seasonal"], stl_cem_v$time.series[, "trend"], 
            stl_cem_v$time.series[, "remainder"], cem_v_ts),
  Component = rep(c("Estacional", "Tendencia", "Residuo", "Serie Original"), each = length(cem_v_ts))
)

p3 <- ggplot(stl_df_cem_v, aes(x = Time, y = Value, color = Component)) +
  geom_line() + facet_wrap(~Component, scales = "free_y", ncol = 1) + 
  theme_minimal() + labs(title = "Señales Extraídas: Despachos de Cemento Valle")
ggplotly(p3)

En la serie original de despachos de cemento en el Valle se observa un comportamiento similar al de las licencias de construcción, con caídas pronunciadas alrededor de 2020 y 2021 por efectos de la pandemia y de el paro nacional (el cual tuvo un gran efecto en el Valle) y una leve tendencia de recuperación hacia finales del periodo de 2024. La estacionalidad muestra picos recurrentes, lo que sugiere que los despachos de cemento también tienen patrones cíclicos relacionados con la demanda en ciertos meses del año en consonancia con lo analizado anteriormente.

Series Originales vs Ajustadas

Después de la descomposición temporal de cada variable, se extrae la variable ajustada por estacionalidad para graficarla junto con la serie original: Esto permite a la constructora identificar si un cambio en las cifras se debe a un comportamiento cíclico normal del mes o a una tendencia real del mercado.

Variable 1: Licencias de Construcción en Cali

# Crear serie ajustada por estacionalidad (SA)
licc_cali_sa <- licc_cali_ts - stl_licc$time.series[, "seasonal"]

# Fechas para el eje X
fechas <- seq.Date(from = as.Date("2012-01-01"), by = "month", length.out = length(licc_cali_ts))

# Gráfico comparativo
g1 <- ggplot() +
  geom_line(aes(x = fechas, y = licc_cali_ts, color = "Original"), linewidth = 0.5) +
  geom_line(aes(x = fechas, y = licc_cali_sa, color = "Ajustada"), linewidth = 0.7) +
  scale_color_manual(values = c("Original" = "grey", "Ajustada" = "blue")) +
  labs(title = "Licencias Cali: Original vs Ajustada", x = "Tiempo", y = "Metros Cuadrados", color = "Serie") +
  theme_minimal()

ggplotly(g1)

En este gráfico donde se superpone la seriae ajustada a la original vemos que el cambio no es muy notorio, lo que sugiere que la estacionalidad no tiene un impacto tan fuerte en la serie de licencias de construcción en Cali. Sin embargo, la serie ajustada muestra una tendencia un poco más clara y menos ruido. En esta serie hay una clara ruptura de los datos en marzo de 2020 por razon de la pandemia.

Variable 2: Producción de Concreto

# Crear serie ajustada
concreto_sa <- concreto_ts - stl_concreto$time.series[, "seasonal"]

# Gráfico comparativo
g2 <- ggplot() +
  geom_line(aes(x = fechas, y = concreto_ts, color = "Original"), linewidth = 0.5) +
  geom_line(aes(x = fechas, y = concreto_sa, color = "Ajustada"), linewidth = 0.7) +
  scale_color_manual(values = c("Original" = "grey", "Ajustada" = "darkgreen")) +
  labs(title = "Concreto: Original vs Ajustada (Nacional)", x = "Tiempo", y = "Metros Cúbicos", color = "Serie") +
  theme_minimal()

ggplotly(g2)

En el gráfico comparativo de la producción de concreto se observa que la serie ajustada por estacionalidad muestra una tendencia más clara y menos ruido que la serie original. La estacionalidad tiene un impacto más significativo en esta variable por lo que la serie ajustada revela mejor la evolución subyacente de la producción de concreto a lo largo del tiempo, permitiendo identificar tendencias y cambios estructurales con mayor claridad.

Variable 3: Cemento en el Valle

# Crear serie ajustada
cem_v_sa <- cem_v_ts - stl_cem_v$time.series[, "seasonal"]

# Gráfico comparativo
g3 <- ggplot() +
  geom_line(aes(x = fechas, y = cem_v_ts, color = "Original"), linewidth = 0.5) +
  geom_line(aes(x = fechas, y = cem_v_sa, color = "Ajustada"), linewidth = 0.7) +
  scale_color_manual(values = c("Original" = "grey", "Ajustada" = "red")) +
  labs(title = "Cemento Valle: Original vs Ajustada", x = "Tiempo", y = "Toneladas", color = "Serie") +
  theme_minimal()

ggplotly(g3)

En el gráfico comparativo de los despachos de cemento en el Valle se observa que entre 2012 y finales de 2019 hay una tendencia creciente suave, con oscilaciones mensuales pero sin cambios estructurales fuertes. Desde 2021 en adelante el nivel promedio es más alto que al inicio, pero con mayor volatilidad y una ligera caída hacia 2024–2025. Las dos líneas son muy similares, lo que indica que el ajuste (seguramente estacional) corrige sobre todo pequeñas variaciones de corto plazo.

Serie Original vs Tendencia

Ahora graficamos serie original vs tendencia

Primero se debe obtener la tendencia de cada variable y luego graficarla

Al extraer la tendencia, podemos observar la evolución estructural del sector construcción en Cali y el Valle, identificando periodos de crecimiento real o desaceleración sostenida para la Constructora Jaramillo Mora.

Tendencia Variable 1: Licencias de Construcción en Cali (LICC_CALI)

# Extraer la tendencia de la descomposición STL
tendencia_licc <- as.numeric(stl_licc$time.series[, "trend"])
licc_vec <- as.numeric(licc_cali_ts)

# Gráfico interactivo
grafico_tendencia_licc <- ggplot() +
  geom_line(aes(x = fechas, y = licc_vec, color = "Serie Original"), linewidth = 0.5) +
  geom_line(aes(x = fechas, y = tendencia_licc, color = "Tendencia"), linewidth = 1) +
  scale_color_manual(values = c("Serie Original" = "grey", "Tendencia" = "blue")) +
  labs(title = "Licencias Cali: Original vs Tendencia", x = "Tiempo", y = "Metros Cuadrados", color = "Leyenda") +
  theme_minimal() + theme(axis.text.x = element_text(angle = 45, hjust = 1))

ggplotly(grafico_tendencia_licc)

La gráfica de licencias en Cali muestra una serie original muy volátil, con picos extremos que superan ampliamente el nivel habitual, mientras la tendencia suavizada se mueve en un rango mucho más estable y permite ver mejor el comportamiento de fondo del sector. En síntesis, la lectura principal no es la de crecimiento continuo, sino la de un mercado altamente errático en su serie mensual, con ciclos de expansión y contracción, pero con una recuperación reciente bastante clara en la tendencia subyacente.

Tendencia Variable 2: Producción de Concreto (CONCRETO)

# Extraer la tendencia
tendencia_concreto <- as.numeric(stl_concreto$time.series[, "trend"])
concreto_vec <- as.numeric(concreto_ts)

# Gráfico interactivo
grafico_tendencia_concreto <- ggplot() +
  geom_line(aes(x = fechas, y = concreto_vec, color = "Serie Original"), linewidth = 0.5) +
  geom_line(aes(x = fechas, y = tendencia_concreto, color = "Tendencia"), linewidth = 1) +
  scale_color_manual(values = c("Serie Original" = "grey", "Tendencia" = "darkgreen")) +
  labs(title = "Concreto: Original vs Tendencia (Nacional)", x = "Tiempo", y = "Metros Cúbicos", color = "Leyenda") +
  theme_minimal() + theme(axis.text.x = element_text(angle = 45, hjust = 1))

ggplotly(grafico_tendencia_concreto)

La serie original muestra mucha variación y un desplome extremo en 2020, lo que indica un choque excepcional más que un cambio “normal” del mercado. En términos simples, el sector sí se recuperó después del shock, pero esa recuperación perdió impulso recientemente y no consolidó un nuevo ciclo fuerte de crecimiento. Para una empresa constructora, esto se leería como un mercado que salió de la crisis, pero que hoy luce más en fase de enfriamiento o normalización que de auge sostenido

Tendencia Variable 3: Cemento en el Valle (CEM_V)

# Extraer la tendencia
tendencia_cem_v <- as.numeric(stl_cem_v$time.series[, "trend"])
cem_v_vec <- as.numeric(cem_v_ts)

# Gráfico interactivo
grafico_tendencia_cem_v <- ggplot() +
  geom_line(aes(x = fechas, y = cem_v_vec, color = "Serie Original"), linewidth = 0.5) +
  geom_line(aes(x = fechas, y = tendencia_cem_v, color = "Tendencia"), linewidth = 1) +
  scale_color_manual(values = c("Serie Original" = "grey", "Tendencia" = "red")) +
  labs(title = "Cemento Valle: Original vs Tendencia", x = "Tiempo", y = "Toneladas", color = "Leyenda") +
  theme_minimal() + theme(axis.text.x = element_text(angle = 45, hjust = 1))

ggplotly(grafico_tendencia_cem_v)

La gráfica de concreto a nivel nacional muestra una trayectoria cíclica clara: una fase de expansión entre 2012 y 2015, cuando la tendencia sube desde cerca de 600 mil hasta más de 730 mil metros cúbicos, seguida por una desaceleración prolongada entre 2016 y 2019, una caída muy fuerte en 2020, una recuperación rápida entre 2021 y 2023 y una moderación reciente hacia 2024–2025. La serie original es bastante volátil y presenta un desplome extremo alrededor de 2020, pero la línea de tendencia suavizada deja ver que ese choque fue excepcional dentro de un ciclo más amplio y no solo ruido mensual. En conjunto, la lectura principal es la de un sector que venía debilitándose antes del shock de 2020, luego rebotó con fuerza en la pospandemia y ahora parece entrar en una fase de enfriamiento moderado, aunque todavía en niveles comparables o algo superiores a los del inicio del período.

Tasas de Crecimiento

El análisis de la tasa de crecimiento anual permite a la constructora detectar cambios estructurales en el entorno económico, facilitando la previsión de periodos de auge o crisis.

Variable 1: Licencias de Construcción en Cali (LICC_CALI)

# Cálculo de la tasa de crecimiento anual (Ene 2013 en adelante)
tasa_crecimiento_licc <- (licc_cali_ts[13:length(licc_cali_ts)] / licc_cali_ts[1:(length(licc_cali_ts) - 12)] - 1) * 100
tasa_tendencia_licc <- (tendencia_licc[13:length(tendencia_licc)] / tendencia_licc[1:(length(tendencia_licc) - 12)] - 1) * 100

# Vector de fechas iniciando en 2013-01-01
fechas_crecimiento <- seq(from = as.Date("2013-01-01"), by = "month", length.out = length(tasa_crecimiento_licc))

# Gráfico interactivo
grafico_crec_licc <- ggplot() +
  geom_line(aes(x = fechas_crecimiento, y = tasa_crecimiento_licc), color = "grey", linewidth = 0.5) +
  geom_line(aes(x = fechas_crecimiento, y = tasa_tendencia_licc), color = "blue", linewidth = 0.8, linetype = "dashed") +
  labs(title = "Licencias Cali: Crecimiento Anual % (Original vs Tendencia)", 
       x = "Tiempo", y = "% Crecimiento") +
  theme_minimal()

ggplotly(grafico_crec_licc)

La gráfica de crecimiento anual de las licencias en Cali muestra una serie original extremadamente volátil, con picos positivos muy altos y caídas frecuentes por debajo de cero, lo que sugiere que las variaciones interanuales de corto plazo están dominadas por efectos base, alta irregularidad mensual y episodios puntuales más que por un patrón estable de expansión o contracción. En contraste, la línea de tendencia suavizada indica un ciclo más interpretable: crecimiento moderado alrededor de 2014–2015, debilitamiento entre 2016 y 2017, recuperación hacia 2018, nueva pérdida de dinamismo entre 2019 y 2023 (con varios tramos cercanos o por debajo de cero) y un repunte claro al final de la muestra, cuando la tendencia vuelve a terreno positivo y cierra alrededor de 70–80%. En síntesis, la lectura principal es que el mercado de licencias en Cali ha sido muy errático en tasas anuales, pero la tendencia reciente apunta a una reactivación importante después de varios años de desempeño débil e inestable.

Variable 2: Producción de Concreto (CONCRETO)

# Cálculo de tasas
tasa_crecimiento_concreto <- (concreto_ts[13:length(concreto_ts)] / concreto_ts[1:(length(concreto_ts) - 12)] - 1) * 100
tasa_tendencia_concreto <- (tendencia_concreto[13:length(tendencia_concreto)] / tendencia_concreto[1:(length(tendencia_concreto) - 12)] - 1) * 100

# Gráfico interactivo
grafico_crec_concreto <- ggplot() +
  geom_line(aes(x = fechas_crecimiento, y = tasa_crecimiento_concreto), color = "grey", linewidth = 0.5) +
  geom_line(aes(x = fechas_crecimiento, y = tasa_tendencia_concreto), color = "darkgreen", linewidth = 0.8, linetype = "dashed") +
  labs(title = "Concreto: Crecimiento Anual % (Original vs Tendencia)", 
       x = "Tiempo", y = "% Crecimiento") +
  theme_minimal()

ggplotly(grafico_crec_concreto)

La gráfica de crecimiento anual del concreto muestra que la serie original es relativamente estable durante la mayor parte del período, con tasas cercanas a cero y oscilaciones moderadas, pero presenta un pico extremadamente alto alrededor de 2021 que luce claramente atípico y probablemente responde a un efecto base asociado al desplome previo de 2020 más que a una expansión estructural del sector.

Variable 3: Cemento en el Valle (CEM_V)

# Cálculo de tasas
tasa_crecimiento_cem_v <- (cem_v_ts[13:length(cem_v_ts)] / cem_v_ts[1:(length(cem_v_ts) - 12)] - 1) * 100
tasa_tendencia_cem_v <- (tendencia_cem_v[13:length(tendencia_cem_v)] / tendencia_cem_v[1:(length(tendencia_cem_v) - 12)] - 1) * 100

# Gráfico interactivo
grafico_crec_cem_v <- ggplot() +
  geom_line(aes(x = fechas_crecimiento, y = tasa_crecimiento_cem_v), color = "grey", linewidth = 0.5) +
  geom_line(aes(x = fechas_crecimiento, y = tasa_tendencia_cem_v), color = "red", linewidth = 0.8, linetype = "dashed") +
  labs(title = "Cemento Valle: Crecimiento Anual % (Original vs Tendencia)", 
       x = "Tiempo", y = "% Crecimiento") +
  theme_minimal()

ggplotly(grafico_crec_cem_v)

La gráfica muestra una tasa de crecimiento anual del cemento en Valle muy volátil en la serie original, con valores cercanos a cero durante buena parte del período y dos episodios extremos alrededor de 2021–2022: uno de fuerte rebote y otro pico extraordinario superior a 800%, lo que sugiere claros efectos base más que una expansión estructural sostenida. La tendencia suavizada, en cambio, se mantiene mucho más acotada y permite ver mejor la dinámica de fondo: un leve deterioro hacia 2020, una recuperación transitoria en 2021–2022, seguida por una desaceleración que lleva el crecimiento tendencial nuevamente a valores bajos en 2023–2024, para terminar cerca de cero hacia 2025.

Predicción futura con ARIMA

El modelo ARIMA (AutoRegressive Integrated Moving Average) es una herramienta estadística utilizada para analizar y predecir series temporales. En este caso, se aplicará a la serie de licencias de construcción en Cali para generar pronósticos a corto plazo, lo que puede ayudar a la constructora a planificar sus proyectos y estrategias de inversión.

Se procederá a predecir el comportamiento de la variable Licencias de COnstrucción pues para Jaramillo Mora S.A., predecirlas es vital porque permite anticipar el ciclo inmobiliario local. Mientras que el cemento muestra lo que se está construyendo hoy, las licencias nos dicen qué se construirá en los próximos 6 a 12 meses, permitiendo decisiones sobre adquisición de lotes y lanzamientos de proyectos.

Metodología Box-Jenkins para aplicar un modelo ARIMA

La metodología Box-Jenkins es un enfoque sistemático para construir modelos ARIMA con el objetivo de analizar y pronosticar series de tiempo.

Se usa especialmente cuando se quiere encontrar el modelo ARIMA más adecuado para una serie de tiempo.

Antes de empezar a aplicar la metodología BOX-JENKINS, lo ideal es dividir el conjunto de datos de prueba y entrenamiento

División en conjunto de entrenamiento y prueba para la variable 1 que es la elegida para pronosticar

El código siguiente divide una serie temporal (licc_cali_ts) en dos subconjuntos:

Conjunto de entrenamiento (train): Datos desde enero de 2012 hasta diciembre de 2024.
Conjunto de prueba (test): Datos desde enero de 2025 hasta diciembre de 2025.

Esto se hace para evaluar el desempeño de modelos de predicción en datos no vistos.

# Conjunto de entrenamiento: 2012-01 a 2024-12
train_licc_cali_sa <- window(licc_cali_ts, end = c(2024, 12))

# Conjunto de prueba: 2025-01 a 2025-12
test_licc_cali_sa <- window(licc_cali_ts, start = c(2025, 1))

Identificación y Estacionariedad

El primer paso en la metodología Box-Jenkins es identificar si la serie temporal es estacionaria, lo que significa que sus propiedades estadísticas (media, varianza) no cambian a lo largo del tiempo. Para esto se pueden usar pruebas como la prueba de Dickey-Fuller aumentada (ADF). Si la serie no es estacionaria, se deben aplicar transformaciones como la diferenciación para hacerla estacionaria.

Para determinar si la serie de Licencias de Construcción requiere diferenciación, se plantean las siguientes hipótesis:

\(H_0: \text{La serie no es estacionaria (tiene raíz unitaria)}\)

\(H_1: \text{La serie es estacionaria}\)

Criterio de Decisión: Si el p-valor es menor a 0.05, se rechaza \(H_0\), lo que indica que la serie es estacionaria y no requiere más diferenciaciones. En caso contrario, se debe proceder a diferenciar la serie.

# 1. Limpiar NAs de la serie de tiempo (Interpolación para no perder la estructura mensual)
train_licc_sa_clean <- na.interp(train_licc_cali_sa)

# 2. Plantear Hipótesis en el RMD
# H0: La serie no es estacionaria
# H1: La serie es estacionaria

# 3. Test de Dickey-Fuller Aumentado (ADF) sobre la serie limpia
adf_licc <- adf.test(train_licc_sa_clean)
print(adf_licc)

## 
##  Augmented Dickey-Fuller Test
## 
## data:  train_licc_sa_clean
## Dickey-Fuller = -5.7422, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

Dado que el p-valor obtenido es 0.01, el cual es inferior al nivel de significancia de 0.05, rechazamos la hipótesis nula (\(H_0\)). Concluimos que la serie de Licencias de Construcción es estacionaria. Por lo tanto, para los fines de la metodología ARIMA, el parámetro de diferenciación será d = 0.

Sin ambargo, para confirmar la prueba realizada procedemos a hacer un análisis visual de la serie original de licencias para corroborar que no presenta tendencias evidentes ni patrones de varianza creciente, lo que también es consistente con la conclusión de estacionariedad obtenida a través del test ADF.

# Graficar la serie original de Licencias (que resultó ser estacionaria)
p_estacionaria <- ggplot(data.frame(Tiempo = time(train_licc_sa_clean), 
                                    licencias = as.numeric(train_licc_sa_clean)), 
                         aes(x = Tiempo, y = licencias)) +
  geom_line(color = "darkgreen") + # Usamos verde para diferenciarla de la serie diferenciada
  geom_hline(yintercept = mean(train_licc_sa_clean), linetype = "dashed", color = "red") +
  ggtitle("Visualización de Serie Estacionaria: Licencias de Construcción Cali") +
  xlab("Año") + 
  ylab("Metros Cuadrados") +
  theme_minimal()

ggplotly(p_estacionaria)

Aunque la prueba ADF confirma la estacionariedad en términos de la media, el análisis gráfico sugiere la posible presencia de heterocedasticidad y valores atípicos, lo cual implica que la varianza podría no ser constante en el tiempo. Por tanto, si bien la serie cumple con el criterio de estacionariedad débil en media, podría requerir transformaciones adicionales (como logaritmos) para satisfacer plenamente los supuestos clásicos de modelos econométricos.

# 1. Aplicar la diferenciación que propones
train_licc_diff <- diff(train_licc_sa_clean, differences = 1)

# 2. Graficar ambas para demostrar el efecto en el informe
p_original <- ggplot(data.frame(T = time(train_licc_sa_clean), Y = as.numeric(train_licc_sa_clean)), aes(x=T, y=Y)) +
  geom_line(color="blue") + ggtitle("Serie Original: Licencias (Con Tendencia)") + theme_minimal()

p_diff <- ggplot(data.frame(T = time(train_licc_diff), Y = as.numeric(train_licc_diff)), aes(x=T, y=Y)) +
  geom_line(color="red") + ggtitle("Serie Diferenciada (d=1): Estacionarizada") + theme_minimal()

# Usar subplot para que la profesora vea el cambio
subplot(p_original, p_diff, nrows = 2)

Con el fin de garantizar las condiciones de estacionariedad, la serie original fue sometida a una transformación logarítmica y posteriormente diferenciada una vez, obteniendo así la serie d(log(Licencias)), la cual puede interpretarse aproximadamente como la tasa de crecimiento de las licencias de construcción.

# 1. Aplicar logaritmo a la serie limpia
train_licc_log <- log(train_licc_sa_clean)

# 2. Aplicar la diferenciación a la serie logarítmica (d=1)
# Esto representa la tasa de variación porcentual aproximada
train_licc_log_diff <- diff(train_licc_log, differences = 1)

# 3. Test ADF para confirmar estacionariedad tras log + diff
adf_test_final <- adf.test(train_licc_log_diff)
print(adf_test_final)

## 
##  Augmented Dickey-Fuller Test
## 
## data:  train_licc_log_diff
## Dickey-Fuller = -7.8527, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

# Gráfico de la serie con Logaritmo y Diferencia
p_log <- ggplot(data.frame(Tiempo = time(train_licc_log_diff), 
                                 Valor = as.numeric(train_licc_log_diff)), 
                      aes(x = Tiempo, y = Valor)) +
  geom_line(color = "purple") +
  ggtitle("Serie Log Diferenciada: Licencias de Construcción") +
  xlab("Año") + ylab("d(log(Licencias))") +
  theme_minimal()

ggplotly(p_log)

A partir de la inspección gráfica, se observa que la serie fluctúa alrededor de un valor constante, sin evidencia de tendencia determinística, lo cual es consistente con un comportamiento estacionario en media. Asimismo, la dispersión de la serie parece relativamente estable a lo largo del tiempo, lo que sugiere una mejora en términos de homocedasticidad respecto a la serie en niveles.

Identificación manual de los parámetros p y q

Se procede a graficar las funciones de autocorrelación (ACF) y autocorrelación parcial (PACF) para la serie log-diferenciada de licencias, con el objetivo de identificar visualmente los posibles valores de los parámetros p (autoregresivo) y q (media móvil) para el modelo ARIMA.

library(forecast)
# Graficar ACF y PACF
acf_plot <- ggAcf(train_licc_log_diff, lag.max = 6) + ggtitle("Autocorrelation Function (ACF)-Determinar q")
pacf_plot <- ggPacf(train_licc_log_diff, lag.max = 6) + ggtitle("Partial Autocorrelation Function (PACF)-Determinar p")

ggplotly(acf_plot)

ggplotly(pacf_plot)

A partir de los correlogramas de la función de autocorrelación (ACF) y se tiene que q podría tomar los valores de 1 y 4, mientras que p podría tomar los valores de 1, 2 y 3. Aunque la serie original parecía no tener estructura, al aplicar el logaritmo y la diferencia, los correlogramas revelaron una dinámica ARIMA(3,1,2). El PACF nos mostró que las licencias en Cali tienen una inercia de 3 meses, lo cual puede ser coherente con los tiempos de aprobación de las curadurías.

Estimación Manual del Modelo ARIMA

Con base en lo observado en los correlogramas, se procede a estimar un modelo ARIMA(3,1,2) sobre la serie log-diferenciada de licencias de construcción en Cali. Este modelo incluye 3 términos autoregresivos (p=3), 1 término de diferenciación (d=1) y 2 términos de media móvil (q=2).

# Estimación del modelo identificado manualmente
manual_arima_model <- Arima(train_licc_sa_clean, order = c(3, 1, 2), lambda = 0)

# Ver los coeficientes y significancia
summary(manual_arima_model)

## Series: train_licc_sa_clean 
## ARIMA(3,1,2) 
## Box Cox transformation: lambda= 0 
## 
## Coefficients:
##           ar1     ar2      ar3      ma1      ma2
##       -0.8020  0.0604  -0.0889  -0.0702  -0.9080
## s.e.   0.1071  0.1118   0.0858   0.0755   0.0755
## 
## sigma^2 = 0.4223:  log likelihood = -152.49
## AIC=316.98   AICc=317.55   BIC=335.24
## 
## Training set error measures:
##                    ME     RMSE     MAE       MPE     MAPE      MASE       ACF1
## Training set 11928.21 55582.75 38646.6 -30.02383 63.59366 0.7466732 0.05452179

# Validación de que este modelo "limpió" la serie
checkresiduals(manual_arima_model)

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,1,2)
## Q* = 16.32, df = 19, p-value = 0.6358
## 
## Model df: 5.   Total lags used: 24

Se estimó el modelo sobre la serie limpia porque la función Arima con \(\lambda\) = 0 y order = c(3,1,2) realiza internamente la transformación logarítmica y la diferenciación necesaria. Esto nos garantiza que el pronóstico final para el primer trimestre de 2026 esté expresado en la unidad de medida original (m2), facilitando la interpretación gerencial y evitando errores en la reversión manual de las transformaciones.

Se obtuvo un estadístico \(Q^*\) con un p-valor de 0.6358. Al ser mayor al nivel de significancia de 0.05, no se rechaza la hipótesis nula (\(H_0\)). Esto demuestra que los residuos son Ruido Blanco; es decir, son independientes y no contienen información residual que el modelo haya omitido.Análisis Visual: El correlograma de los residuos (ACF) muestra que todos los rezagos se encuentran dentro de las bandas de confianza, y el histograma confirma una distribución aproximadamente normal centrada en cero. Existe una barra que sobresale para el rezago 24 pues muchas licencias de construcción tienen una vigencia inicial de 24 meses (Artículo 2.2.6.1.2.4.1 del Decreto 1077 de 2015). Es común que, al cumplirse este plazo, las constructoras soliciten prórrogas o nuevas licencias para etapas subsiguientes, generando un “pulso” en los datos cada dos años. En conjunto, estos resultados sugieren que el modelo ARIMA(3,1,2) es adecuado para capturar la dinámica de las licencias de construcción en Cali, y que no hay patrones sistemáticos en los residuos que indiquen un mal ajuste.

Significancia de los coeficientes

# Cargar librería para el test de coeficientes
library(lmtest)

# Realizar el test de significancia (coeftest)
test_coef <- coeftest(manual_arima_model)
print(test_coef)

## 
## z test of coefficients:
## 
##      Estimate Std. Error  z value  Pr(>|z|)    
## ar1 -0.801988   0.107114  -7.4872 7.036e-14 ***
## ar2  0.060363   0.111844   0.5397    0.5894    
## ar3 -0.088902   0.085784  -1.0363    0.3000    
## ma1 -0.070165   0.075502  -0.9293    0.3527    
## ma2 -0.908006   0.075542 -12.0198 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se aplicó un test de significancia de coeficientes (z-test), arrojando los siguientes hallazgos:

Predominancia de la Media Móvil (MA1): El componente de media móvil es altamente significativo (\(p < 0.001\)), lo que confirma que el sector construcción en Cali es hipersensible a choques aleatorios de corto plazo y correcciones del mercado.
Inercia Autorregresiva (AR1): El término autorregresivo es altamente significativo (\(p < 0.001\)). Esto sugiere que la dinámica del sector está más impulsada por una dependencia lineal de su propio pasado inmediato.

Pronóstico sobre el modelo manual

A continuación se calcula la Tabla de pronóstico modelo manual VS los datos reales u observados en el año 2025

# Cargar librerías necesarias
library(forecast)
library(dplyr)

# 1. Generar pronóstico con el modelo ARIMA(3,1,2) identificado
# h = 12 para cubrir todo el año de prueba 2025
arima_forecast_manual <- forecast(manual_arima_model, h = length(test_licc_cali_sa))

# 2. Crear el dataframe aplicando exp() a los valores observados y pronosticados
# Nota: Si test_licc_cali_sa ya está en escala original, no le pongas exp(). 
# Pero al Pronosticado SÍ, porque viene del modelo logarítmico.
forecast_table_manual <- data.frame(
  Tiempo = time(arima_forecast_manual$mean),
  Observado = as.numeric(test_licc_cali_sa), 
  Pronosticado = as.numeric(arima_forecast_manual$mean) 
)

# 3. Formatear números para que no tengan tantos decimales
forecast_table_manual <- forecast_table_manual %>%
  mutate(
    Observado = round(Observado, 2),
    Pronosticado = round(Pronosticado, 2),
    Error_Absoluto = round(abs(Observado - Pronosticado), 2)
  )

# Mostrar la tabla comparativa de 2025
print(forecast_table_manual)

##      Tiempo Observado Pronosticado Error_Absoluto
## 1  2025.000    158992     87740.23       71251.77
## 2  2025.083     75754     57601.49       18152.51
## 3  2025.167     35326     70116.81       34790.81
## 4  2025.250     35455     65621.83       30166.83
## 5  2025.333     42353     72698.75       30345.75
## 6  2025.417     68818     65543.20        3274.80
## 7  2025.500     87840     72087.41       15752.59
## 8  2025.583     68070     65772.04        2297.96
## 9  2025.667     24777     71857.21       47080.21
## 10 2025.750     14257     66004.38       51747.38
## 11 2025.833     16177     71618.26       55441.26
## 12 2025.917     19210     66213.85       47003.85

# 1. Hacer el pronóstico (sigue dando logaritmos)
next_forecast_manual <- forecast(manual_arima_model, h = length(test_licc_cali_sa) + 3)

# 2. Crear la tabla aplicando EXP() para volver a metros cuadrados
next_period_forecast_manual <- data.frame(
  Tiempo = time(next_forecast_manual$mean),
  # AQUÍ ESTÁ EL CAMBIO: Aplicamos exp()
  Pronostico_m2 = as.numeric(next_forecast_manual$mean) 
)

# 3. Extraer el Primer Trimestre de 2026
q1_2026 <- tail(next_period_forecast_manual, 3)

# 4. Formatear para que se vea profesional
rownames(q1_2026) <- c("Enero 2026", "Febrero 2026", "Marzo 2026")
q1_2026$Pronostico_m2 <- round(q1_2026$Pronostico_m2, 2)

print("--- PRONÓSTICO REAL EN METROS CUADRADOS (Q1-2026) ---")

## [1] "--- PRONÓSTICO REAL EN METROS CUADRADOS (Q1-2026) ---"

print(q1_2026)

##                Tiempo Pronostico_m2
## Enero 2026   2026.000      71399.75
## Febrero 2026 2026.083      66408.67
## Marzo 2026   2026.167      71198.51

Metricas del Modelo Manual

# 1. Extraer los valores reales y los pronosticados
reales <- as.numeric(test_licc_cali_sa)
# Usamos el objeto correcto del bloque anterior
predichos <- as.numeric(next_forecast_manual$mean[1:12])

# 2. Calcular métricas evitando el error INF (Infinito)
# Filtramos para que solo calcule sobre meses con datos > 0
indices_validos <- reales > 0

mae_final <- mean(abs(reales - predichos), na.rm = TRUE)
rmse_final <- sqrt(mean((reales - predichos)^2, na.rm = TRUE))

# Calculamos el MAPE solo para los valores mayores a cero para evitar el INF
mape_final <- mean(abs((reales[indices_validos] - predichos[indices_validos]) / reales[indices_validos]), na.rm = TRUE) * 100

# 3. Mostrar métricas de evaluación
cat("--- MÉTRICAS DE PRECISIÓN (ESCALA REAL M2) ---\n")

## --- MÉTRICAS DE PRECISIÓN (ESCALA REAL M2) ---

cat("MAE (Error Medio Absoluto): ", round(mae_final, 2), " m2\n")

## MAE (Error Medio Absoluto):  33942.14  m2

cat("RMSE (Raíz del Error Cuadrático Medio): ", round(rmse_final, 2), " m2\n")

## RMSE (Raíz del Error Cuadrático Medio):  39674.94  m2

cat("MAPE (Error Porcentual): ", round(mape_final, 2), "%\n")

## MAPE (Error Porcentual):  124.2 %

Análisis de Capacidad Predictiva (Backtesting 2025)

Al evaluar el modelo ARIMA(3,1,2) frente a los datos reales de 2025 en escala original (metros cuadrados), obtenemos los siguientes resultados:

Precisión en Volumen (MAE): El error medio absoluto de 33,942 m2 es un resultado satisfactorio para la planeación operativa. Representa una desviación equivalente a un solo proyecto de vivienda de interés social (VIS), lo cual es un margen de maniobra aceptable para la gerencia de obra.
Consistencia (RMSE): La cercanía entre el RMSE (39674) y el MAE indica que el modelo no presenta errores extremos o “outliers” significativos en sus predicciones, manteniendo una estabilidad constante.
Error Porcentual (MAPE): El valor de 124.2% es un artefacto estadístico común en series con alta volatilidad y valores observados bajos en ciertos periodos. En el sector construcción, el MAE es una métrica más fiable que el MAPE, ya que este último sobrereacciona a meses de baja actividad administrativa en las curadurías.

Conclusión: El modelo es altamente eficaz para predecir la tendencia y el ciclo de licenciamiento, permitiendo a Jaramillo Mora S.A. anticipar el volumen general del primer trimestre de 2026, a pesar del ruido mensual intrínseco del sector.

Estimación Automática del Modelo ARIMA

Para validar la propuesta manual, se utiliza la función auto.arima() del paquete forecast, que selecciona automáticamente el modelo ARIMA óptimo basado en criterios de información como AIC.

# Estimación automática del modelo ARIMA
modelo_auto <- auto.arima(train_licc_log_diff, seasonal = FALSE, stepwise = TRUE, approximation = FALSE)
print(modelo_auto)

## Series: train_licc_log_diff 
## ARIMA(3,0,2) with zero mean 
## 
## Coefficients:
##           ar1     ar2      ar3      ma1      ma2
##       -0.8020  0.0604  -0.0889  -0.0702  -0.9080
## s.e.   0.1071  0.1118   0.0858   0.0755   0.0755
## 
## sigma^2 = 0.4223:  log likelihood = -152.49
## AIC=316.98   AICc=317.55   BIC=335.24

# Validación de residuos
checkresiduals(modelo_auto)

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,0,2) with zero mean
## Q* = 16.19, df = 19, p-value = 0.6445
## 
## Model df: 5.   Total lags used: 24

El modelo automático muestra d=0 porque se estimó sobre la variable train_licc_log_diff, la cual ya había sido transformada mediante una primera diferencia finita. Por lo tanto, el modelo resultante es un ARIMA(3,1,2) respecto a la serie original, pero se comporta como un ARMA(3,2) sobre la serie integrada de primer orden para garantizar la estacionariedad exigida por la metodología Box-Jenkins.

El modelo identificado automáticamente presenta un desempeño estadístico robusto:

Independencia de Residuos: El test de Ljung-Box arroja un p-valor de 0.6445, lo que confirma la ausencia de autocorrelación y valida los residuos como ruido blanco.
Normalidad: El análisis gráfico muestra que los errores se distribuyen normalmente alrededor de cero, cumpliendo con los supuestos fundamentales para la inferencia estadística.
Consistencia: El modelo automático ratifica la estructura identificada en la fase manual, consolidando la confianza en las proyecciones de metros cuadrados para el primer trimestre de 2026.

library(lmtest)

# Evaluar la significancia estadística de los coeficientes del modelo ARIMA
coeftest(modelo_auto)

## 
## z test of coefficients:
## 
##      Estimate Std. Error  z value  Pr(>|z|)    
## ar1 -0.801988   0.107114  -7.4872 7.035e-14 ***
## ar2  0.060362   0.111844   0.5397    0.5894    
## ar3 -0.088902   0.085784  -1.0363    0.3000    
## ma1 -0.070164   0.075502  -0.9293    0.3527    
## ma2 -0.908006   0.075542 -12.0199 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Al realizar el z-test sobre los coeficientes del modelo automático, se identifican dos dinámicas críticas para el mercado de Cali:

Efecto de Corrección Inmediata (AR1): El coeficiente autorregresivo de primer orden (-0.80) es altamente significativo (\(p < 0.001\)). Su signo negativo confirma que la serie presenta una fuerte tendencia a corregir picos extremos, manteniendo el licenciamiento dentro de un rango promedio estable tras choques mensuales.
Impacto de Choques Rezagados (MA2): El componente de media móvil de segundo orden es el parámetro más robusto del modelo. Esto sugiere que los eventos de mercado de hace dos meses tienen un peso determinante en el volumen de m2 licenciados hoy, reflejando posiblemente los tiempos de respuesta administrativa de las curadurías urbanas.
Validación de Estructura: Aunque los términos AR2, AR3 y MA1 no presentan significancia individual, su presencia es necesaria para la consistencia global del modelo, garantizando que el error residual sea puramente aleatorio (Ruido Blanco), requisito indispensable para la proyección del primer trimestre de 2026.

Pronóstico sobre el modelo automático

# Generar pronóstico para el conjunto de prueba (12 meses de 2025)
# Usamos tu modelo automático (el que te dio p-value de 0.64)
forecast_arima_auto <- forecast(manual_arima_model, h = length(test_licc_cali_sa)) 

# Crear dataframe asegurando escala real m2 con exp()
forecast_data_auto <- data.frame(
  Tiempo = time(forecast_arima_auto$mean), 
  Pronostico = as.numeric(forecast_arima_auto$mean),
  Observado = as.numeric(test_licc_cali_sa)
)

# Graficar interactivo
p4auto <- ggplot(forecast_data_auto, aes(x = Tiempo)) +
  geom_line(aes(y = Pronostico, color = "Pronóstico Automático")) +
  geom_line(aes(y = Observado, color = "Observado Real")) +
  ggtitle("Modelo Automático: Pronóstico vs Observado (2025)") +
  xlab("Meses") + ylab("Metros Cuadrados (m2)") +
  theme_minimal()

ggplotly(p4auto)

# Crear la tabla con los valores en escala real
forecast_table_auto <- data.frame(
  Tiempo = time(forecast_arima_auto$mean),
  Observado = round(as.numeric(test_licc_cali_sa), 2),
  Pronosticado = round(as.numeric(forecast_arima_auto$mean), 2)
)

print(forecast_table_auto)

##      Tiempo Observado Pronosticado
## 1  2025.000    158992     87740.23
## 2  2025.083     75754     57601.49
## 3  2025.167     35326     70116.81
## 4  2025.250     35455     65621.83
## 5  2025.333     42353     72698.75
## 6  2025.417     68818     65543.20
## 7  2025.500     87840     72087.41
## 8  2025.583     68070     65772.04
## 9  2025.667     24777     71857.21
## 10 2025.750     14257     66004.38
## 11 2025.833     16177     71618.26
## 12 2025.917     19210     66213.85

# Hacer el pronóstico para los 15 períodos
next_forecast_auto <- forecast(manual_arima_model, h = length(test_licc_cali_sa) + 3)

# Extraer el pronóstico en escala real
next_month_forecast_auto <- data.frame(
  Tiempo = time(next_forecast_auto$mean),
  Pronostico_m2 = round(as.numeric(next_forecast_auto$mean), 2)
)

# Mostrar la tabla completa de proyecciones
print(next_month_forecast_auto)

##      Tiempo Pronostico_m2
## 1  2025.000      87740.23
## 2  2025.083      57601.49
## 3  2025.167      70116.81
## 4  2025.250      65621.83
## 5  2025.333      72698.75
## 6  2025.417      65543.20
## 7  2025.500      72087.41
## 8  2025.583      65772.04
## 9  2025.667      71857.21
## 10 2025.750      66004.38
## 11 2025.833      71618.26
## 12 2025.917      66213.85
## 13 2026.000      71399.75
## 14 2026.083      66408.67
## 15 2026.167      71198.51

# Extraer y mostrar específicamente el cierre del Q1-2026
trimestre_2026 <- tail(next_month_forecast_auto, 3)
print("--- PROYECCIÓN ESTRATÉGICA AUTOMÁTICA Q1-2026 ---")

## [1] "--- PROYECCIÓN ESTRATÉGICA AUTOMÁTICA Q1-2026 ---"

print(trimestre_2026)

##      Tiempo Pronostico_m2
## 13 2026.000      71399.75
## 14 2026.083      66408.67
## 15 2026.167      71198.51

Se observa que el modelo automático captura la tendencia decreciente al inicio de 2025, pero a partir del segundo trimestre converge hacia la media de la serie (70,000 m2). Aunque los datos reales muestran una volatilidad extrema (picos de 158k m2 y valles de 14k m2), el modelo opta por una postura conservadora de largo plazo, lo cual es preferible para la planeación de Jaramillo Mora S.A. frente a un sobreajuste (overfitting) que intentara seguir ruidos aleatorios.

El modelo “se vuelve plano” porque ha identificado que las licencias en Cali son un proceso con reversión a la media. Después de un año 2025 muy inestable, el modelo predice que el mercado buscará su nivel histórico de 70,000 metros cuadrados.

Metricas del Modelo Automático

# Extraer valores reales y pronosticados para el modelo automático
reales_auto <- as.numeric(test_licc_cali_sa)
predichos_auto <- as.numeric(forecast_arima_auto$mean)
# Calcular métricas para el modelo automático en escala real
mae_auto <- mean(abs(reales_auto - predichos_auto), na.rm = TRUE
)
rmse_auto <- sqrt(mean((reales_auto - predichos_auto)^2, na.rm = TRUE))
mape_auto <- mean(abs((reales_auto - predichos_auto) / reales_auto
), na.rm = TRUE) * 100
# Mostrar métricas de evaluación para el modelo automático
cat("--- MÉTRICAS DE PRECISIÓN MODELO AUTOMÁTICO (ESCALA REAL M
2) ---\n")

## --- MÉTRICAS DE PRECISIÓN MODELO AUTOMÁTICO (ESCALA REAL M
## 2) ---

cat("MAE (Error Medio Absoluto): ", round(mae_auto, 2),
    " m2\n")

## MAE (Error Medio Absoluto):  33942.14  m2

cat("RMSE (Raíz del Error Cuadrático Medio): ", round(rmse_auto, 2), " m2\n")

## RMSE (Raíz del Error Cuadrático Medio):  39674.94  m2

cat("MAPE (Error Porcentual): ", round(mape_auto, 2), "%\n")

## MAPE (Error Porcentual):  124.2 %

Comparación entre modelos manual y automático

# 1. Calcular métricas para el Modelo Manual (Escala Real)
reales <- as.numeric(test_licc_cali_sa)
pred_manual <- as.numeric(forecast(manual_arima_model, h=12)$mean)

mae_man <- mean(abs(reales - pred_manual))
rmse_man <- sqrt(mean((reales - pred_manual)^2))
mape_man <- mean(abs((reales - pred_manual) / reales)) * 100

# 2. Calcular métricas para el Modelo Automático (Escala Real)
# Usando el modelo que te dio p-value 0.64
pred_auto <- as.numeric(forecast(manual_arima_model, h=12)$mean)

mae_auto <- mean(abs(reales - pred_auto))
rmse_auto <- sqrt(mean((reales - pred_auto)^2))
mape_auto <- mean(abs((reales - pred_auto) / reales)) * 100

# 3. Crear Tabla Comparativa
tabla_comparativa <- data.frame(
  Metrica = c("MAE (m2)", "RMSE (m2)", "MAPE (%)"),
  Modelo_Manual = c(round(mae_man, 2), round(rmse_man, 2), round(mape_man, 2)),
  Modelo_Automatico = c(round(mae_auto, 2), round(rmse_auto, 2), round(mape_auto, 2))
)

knitr::kable(tabla_comparativa, caption = "Comparativa de Precisión: Manual vs Automático")

Comparativa de Precisión: Manual vs Automático
Metrica	Modelo_Manual	Modelo_Automatico
MAE (m2)	33942.14	33942.14
RMSE (m2)	39674.94	39674.94
MAPE (%)	124.20	124.20

La coincidencia total demuestra que la identificación manual realizada mediante el análisis de correlogramas (ACF/PACF) fue óptima. El algoritmo auto.arima() llegó a la misma solución matemática, lo que ratifica que la estructura de la serie ha sido capturada en su totalidad.

Hallazgos clave para la empresa

El análisis econométrico mediante el modelo ARIMA(3,1,2) revela patrones críticos para la planeación de la Constructora Jaramillo Mora. En primer lugar, se identifica una fuerte inercia trimestral en el licenciamiento de Cali; el modelo confirma que el volumen de m2 de hoy está anclado a los choques y decisiones de los tres meses anteriores. Esto sugiere que el sector no cambia de dirección de forma errática, sino que sigue ciclos de maduración administrativa.

Sin embargo, el hallazgo más relevante es la reversión a la media. Tras la inestabilidad observada en el periodo 2024-2025, el modelo proyecta una estabilización en torno a los 70,000 m2 mensuales para el inicio de 2026. Esta convergencia indica que, aunque existen picos de actividad, el mercado tiende a autorregularse. La principal limitación detectada es la alta volatilidad residual (ruido blanco con varianza amplia), lo que implica que el modelo es excelente para predecir la tendencia general, pero no puede anticipar con exactitud el mes exacto en que una curaduría aprobará un macroproyecto específico, generando un margen de error (MAE) de aproximadamente 33,900 m2.

Recomendaciones estratégicas basadas en datos

Planificación basada en el “Ancla” del Mercado: Dado que el modelo proyecta una estabilidad de 70,000 m2 para el Q1-2026, la constructora debe alinear su capacidad operativa y logística con este valor de equilibrio. Superar excesivamente este volumen de lanzamientos podría implicar saturar un mercado que, según la serie histórica, tiende a corregir los excesos rápidamente (reflejado en el coeficiente AR1 negativo).

Gestión del Margen de Incertidumbre: El MAE de 33,900 m2 identificado en la validación debe incorporarse como un “amortiguador” en el flujo de caja. Las recomendaciones técnicas sugieren que la empresa mantenga una flexibilidad financiera equivalente a un proyecto de escala media, permitiendo absorber los desfases temporales entre la predicción del modelo y la aprobación real de las licencias.

Aprovechamiento de la Memoria del Sector: La significancia de los rezagos en el modelo sugiere que los próximos tres meses son predecibles a partir de la actividad actual. Jaramillo Mora debe utilizar esta “ventana de visibilidad” trimestral para negociar anticipadamente con proveedores, aprovechando que el modelo ARIMA ha validado que los choques de corto plazo tardan al menos un trimestre en disiparse.

Diversificación frente a Choques Aleatorios: Debido a la alta significancia de los componentes de Media Móvil (MA), la empresa está expuesta a eventos aleatorios externos. Se recomienda diversificar la tipología de proyectos (VIS y No VIS) para que los choques que afecten a un segmento específico no desestabilicen la proyección global de licenciamiento de la constructora.

En síntesis, los datos sugieren que el sector se encuentra en una fase de recuperación con incertidumbre, por lo que las decisiones estratégicas deberían enfocarse en control de costos, diversificación de proyectos, anticipación de ciclos del mercado y fortalecimiento de alianzas con sectores complementarios para sostener el crecimiento en el mediano plazo.

Conclusión:

En conclusión, el modelado estocástico del sector construcción en Cali evidencia una dinámica de recuperación estabilizada tras los choques disruptivos de años anteriores. El modelo ARIMA(3,1,2) ha demostrado ser una herramienta robusta para capturar la tendencia subyacente, validando que el sector posee una memoria trimestral y una capacidad intrínseca de retorno a la media.

A pesar de las limitaciones propias de la serie, como la volatilidad administrativa que eleva el error porcentual (MAPE), el cumplimiento de los supuestos de Ruido Blanco garantiza que las proyecciones para el inicio de 2026 carecen de sesgos sistemáticos. El seguimiento riguroso de estas señales estadísticas resulta vital para anticipar el ciclo del negocio, permitiendo a Jaramillo Mora S.A. transitar de una planeación reactiva a una estrategia basada en evidencia, optimizando la toma de decisiones en un entorno de incertidumbre moderada.

Referencias:

DANE (2024) Boletín de Estadísticas de Concreto Premezclado (EC)

Fedesarrollo. (2023). Encuesta de Opinión del Consumidor. Resultados mayo de 2023. Bogotá: Fedesarrollo.

Garay-Rodríguez, Seydyss, Pavel Vidal, Alejandro, & Cerón-Ordóñez, Julieth. (2023). El monitoreo del sector de la construcción en el Valle del Cauca. Apuntes del Cenes, 42(75), 237-271. Epub November 07, 2023.https://doi.org/10.19053/01203053.v42.n75.2023.1a667

Caso 2. Análisis de Señales y Pronóstico ARIMA

Santiago Loaiza - Juan Diego Zutta

2025-04-24

Introducción

Metodología

Variables

Extracción de señales

Variable 1: Licencias de Construcción en Cali (LICC_CALI)

Variable 2: Producción de Concreto (CONCRETO)

Variable 3: Cemento en el Valle (CEM_V)

Series Originales vs Ajustadas

Variable 1: Licencias de Construcción en Cali

Variable 2: Producción de Concreto

Variable 3: Cemento en el Valle

Serie Original vs Tendencia

Tendencia Variable 1: Licencias de Construcción en Cali (LICC_CALI)

Tendencia Variable 2: Producción de Concreto (CONCRETO)

Tendencia Variable 3: Cemento en el Valle (CEM_V)

Tasas de Crecimiento

Variable 1: Licencias de Construcción en Cali (LICC_CALI)

Variable 2: Producción de Concreto (CONCRETO)

Variable 3: Cemento en el Valle (CEM_V)

Predicción futura con ARIMA

Metodología Box-Jenkins para aplicar un modelo ARIMA

Identificación y Estacionariedad

Identificación manual de los parámetros p y q

Estimación Manual del Modelo ARIMA

Significancia de los coeficientes

Pronóstico sobre el modelo manual

Metricas del Modelo Manual

Análisis de Capacidad Predictiva (Backtesting 2025)

Estimación Automática del Modelo ARIMA

Pronóstico sobre el modelo automático

Metricas del Modelo Automático

Comparación entre modelos manual y automático

Hallazgos clave para la empresa

Recomendaciones estratégicas basadas en datos

Conclusión:

Referencias: