MODELO LINEAL APLICADO EN LA ENCUESTA NACIONAL DEL COMERCIO 2023

Introducción

La encuesta nacional de comercio es una encuesta que permite la estructura y el desarrollo del comercio nacional, a través de la cuantificación de las variables más representativas de los agregados macroeconómicos referentes al sector comercio.

Esta investigación estadística se realiza con todas las empresas formales del país que tengan 10 o más empleados o que en el 2023 hayan tenido ventas por $2.300 millones o más (cifra que cada año cambia según el IPC). Se aplica únicamente a las empresas cuya actividad principal sea el comercio (al por mayor, al por menor o de vehículos), pero no a las que se dedican principalmente a reparación y mantenimiento, a menos que estas estén ligadas directamente con la actividad comercial.

El alcance de la encuesta se centra en las actividades económicas del sector comercio, tomando como base la sección G de la CIIU Rev. 4 A.C. (2022). Esta incluye el comercio al por mayor, al por menor y la reparación de vehículos y motos, que corresponden a las divisiones 45, 46 y 47.

Metodología

A continuación se describe la implementación del análisis del modelo de regresión lineal múltiple, utilizando microdatos reales del DANE.

Para iniciar, se emplearon microdatos de la Encuesta Anual de Comercio (EAC) año 2022. Esta encuesta recopila información detallada sobre las características económicas, financieras y operativas de los establecimientos dedicados a actividades comerciales durante ese periodo. La base de datos contiene sesenta y cuatro (64) variables, de las cuales se escogieron las más relevantes para explicar el comportamiento de la producción bruta así: cuatro (4) cuantitativas independientes, una (1) cuantitativa dependiente y una (1) cualitativa categórica descriptiva:

● Variable dependiente (Y): Producción bruta (BRUTA): Representa el valor total de la producción o ventas brutas generadas por la empresa durante el año 2022.

● Variables independientes (X): ROTACION: Mide la frecuencia con la que la empresa renueva su inventario. Una mayor rotación suele asociarse con eficiencia operativa. PUBLICI: Corresponde al gasto total en publicidad y promoción, indicador de la inversión en posicionamiento comercial. FLETES: Representa el gasto en transporte y distribución de mercancías, reflejando la eficiencia logística. TOTPERSO: Indica el número total de personas empleadas, utilizado como aproximación al tamaño organizacional. CORRE_9: Variable cualitativa que identifica el tipo de comercio según la Clasificación Industrial Internacional Uniforme (CIIU). Esta variable agrupa categorías como: artículos domésticos, con mayorista especializado, con minorista de alimentos, con minorista no especializado, cultura y textiles, equipos e informática, materias primas y víveres al por mayor, piezas para automóviles y motocicletas y vehículos automóviles.

Las anteriores variables se escogieron con el objetivo de analizar los factores económicos y operativos de la producción en el sector comercio, es decir, identificar los factores internos que influyen directamente en la capacidad productiva y el desempeño económico de las empresas. La rotación de inventarios, los gastos en publicidad y fletes y el total de personal reflejan la eficiencia, la gestión logística y la capacidad productiva de las empresas. Finalmente, la inclusión del tipo de comercio (CIIU) permite reconocer las diferencias estructurales entre los subsectores. En conjunto, estas variables explican cómo los recursos humanos, logísticos y comerciales impactan el valor de la producción bruta dentro del sector.

Se ajustó un modelo de regresión lineal múltiple con el fin de analizar la relación entre la producción bruta y un conjunto de variables explicativas representativas del desempeño empresarial en el sector comercio. La ecuación general del modelo se expresa como: BRUTA=β0+β1(ROTACION)+β2(PUBLIC)I+β3(TOTPERSO)+β4(FLETES)+β5(CORRE_9)+ε Donde: β0: Es la constante o término independiente β1,β2, β3, β4, β5: indican el cambio promedio en la producción bruta ante un aumento de una unidad en cada variable explicativa, ε: El error o residuo, diferencia entre el valor observado y lo estimado

Para garantizar la validez del modelo se aplicaron los siguientes supuestos: Normalidad de los residuos, Multicolinealidad y Homocedasticidad, se identificará además cada variable predictora en el margen operativo, así mismo cada este modelo fue ajustado en el software R, lo que permitió evaluar la significancia de los coeficientes, la bondad de ajuste (R²) y el cumplimiento de los supuestos estadísticos.

Resultados descriptivos

Resumen estadistico para cada variable cualitativa

Para cada variable cualitativa se presenta un resumen estadistico a continuación:

## Descriptive Statistics  
## BASE_3$ROTACION  
## N: 9834  
## 
##                          ROTACION
## ----------------- ---------------
##              Mean     43679513.69
##           Std.Dev    248402207.38
##               Min            0.00
##                Q1      3452261.00
##            Median      9479819.00
##                Q3     23552101.09
##               Max   8937692743.00
##               MAD     10684753.30
##               IQR     20099044.44
##                CV            5.69
##          Skewness           21.03
##       SE.Skewness            0.02
##          Kurtosis          604.14
##           N.Valid         9834.00
##                 N         9834.00
##         Pct.Valid          100.00
## Descriptive Statistics  
## BASE_3$PUBLICI  
## N: 9834  
## 
##                          PUBLICI
## ----------------- --------------
##              Mean      522262.01
##           Std.Dev     4519528.79
##               Min           0.00
##                Q1           0.00
##            Median        4299.00
##                Q3       44724.00
##               Max   141114674.00
##               MAD        6373.70
##               IQR       44719.50
##                CV           8.65
##          Skewness          17.29
##       SE.Skewness           0.02
##          Kurtosis         368.48
##           N.Valid        9834.00
##                 N        9834.00
##         Pct.Valid         100.00
## Descriptive Statistics  
## BASE_3$TOTPERSO  
## N: 9834  
## 
##                     TOTPERSO
## ----------------- ----------
##              Mean      74.66
##           Std.Dev     405.17
##               Min       1.00
##                Q1      13.00
##            Median      24.00
##                Q3      52.00
##               Max   14677.33
##               MAD      20.76
##               IQR      39.00
##                CV       5.43
##          Skewness      25.23
##       SE.Skewness       0.02
##          Kurtosis     774.90
##           N.Valid    9834.00
##                 N    9834.00
##         Pct.Valid     100.00
## Descriptive Statistics  
## BASE_3$FLETES  
## N: 9834  
## 
##                           FLETES
## ----------------- --------------
##              Mean      626542.43
##           Std.Dev     4385735.42
##               Min           0.00
##                Q1        5925.00
##            Median       50241.00
##                Q3      254999.00
##               Max   165898899.70
##               MAD       74250.09
##               IQR      249039.00
##                CV           7.00
##          Skewness          23.55
##       SE.Skewness           0.02
##          Kurtosis         734.46
##           N.Valid        9834.00
##                 N        9834.00
##         Pct.Valid         100.00

Las variables BRUTA, ROTACION, PUBLICI, TOTPERSO y FLETES presentan valores muy heterogéneos: la media es mucho menor que el máximo, lo que indica alta dispersión.

El sesgo positivo (skewness > 0) confirma que pocas empresas concentran valores altos, mientras la mayoría opera con valores moderados o bajos.Esto es típico en bases empresariales: las grandes empresas mueven grandes montos, pero son minoría. ## Resultados del modelo

Histogramas para las variables cualitativas en escala logaritmica

Los histogramas fueron realizados en escala logarítmica (log10) con la intención de mostrar una distribución suavizada de los datos representados. Los motivos para esto es que sin la escala logarítmica, los datos se concentraban a la izquierda, a diferencia con la escala en log10, donde las curvas son más simétricas, ayudando a cumplir mejor los supuestos del modelo lineal.

ROTACIÓN: La variable ROTACIÓN presenta una distribución sesgada positivamente en su escala original, pero al transformarse logarítmicamente adquiere una forma aproximadamente simétrica, cercana a una campana.

Esto indica que la mayoría de los establecimientos mantiene niveles moderados de rotación de inventario, mientras que unos pocos presentan valores excepcionalmente altos.

PUBLICI: El histograma de PUBLICI muestra una distribución casi simétrica con ligera concentración central. Esto sugiere que la mayoría de los establecimientos mantiene niveles moderados de gasto publicitario, mientras que sólo una fracción minoritaria realiza inversiones publicitarias elevadas.

TOTPERSO: El histograma de TOTPERSO está sesgado hacia la izquierda, indicando que la mayor cantidad de establecimientos tienen una cantidad de personal baja en relación con los establecimientos comparados.

FLETES: La distribución de FLETES muestra una asimetría moderada tras la transformación logarítmica. Una gran cantidad de empresas concentran gastos logísticos entre rangos medios, con pocas observaciones extremas.

Gráfico de boxplot de las variables cuantitativas

A continaución se presenta un diagrama de boxplot para resumir la información:

Los boxplots muestran la dispersión y la presencia de valores atípicos

Se evidencia que:

FLETES y PUBLICI presentan rangos intercuartílicos amplios, esto refleja que hay establecimientos que invierten mucho más en publicidad y transporte que otras, está diferencia indica que no hay uniformidad en la distribución.

El rango intercuartílico de la variable TOTPERSO es estrecha lo que sugiere que en general los establecimientos concentran un número similar de empleados, también hay algunos valores extremos.

La asimetría y valores atípicos confirman la necesidad de aplicar las transformaciones logarítmicas, ya que la varianza no es constante entre las empresas. También se evidencia que estos valores atípicos son informativos, ya que representan aquellas empresas que definen el rango superior del comportamiento económico.

Distribución para la variable cualitativa

El gráfico de distribución de los establecimientos comerciales segùn su clasificaciòn en la CIIU Rev. 4 A.C. Se puede observar que los sectores de artículos domésticos y mayorista especializado tienen la mayor frecuencia, es decir, que concentran la mayor cantidad de registros dentro de la base de datos. En contraste los sectores como equipos e informática  y vehículos son menos frecuentes, por lo cual exhiben una menor participación, reflejando actividades más especializadas y de menor frecuencia relativa.

Cada sector representa una estructura económica diferente: los comercios de alimentos tienden a tener altos volúmenes y baja rotación de inventario, mientras que los de informática o vehículos tienen ventas más esporádicas, pero de alto valor unitario.

Estimación del modelo de regresión múltiple

Resultados del modelo

A continuación se muestran los resultados arrojados para el modelo de regresión lineal seleccionado:

## 
## Call:
## lm(formula = BRUTA ~ ROTACION + PUBLICI + TOTPERSO + FLETES + 
##     as.factor(CORRE_9), data = BASE_3)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -283614339   -2332191    -417423     842120  299349342 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  1.115e+07  1.025e+06  10.878  < 2e-16 ***
## ROTACION                     2.081e-02  1.347e-03  15.450  < 2e-16 ***
## PUBLICI                      2.328e+00  3.457e-02  67.345  < 2e-16 ***
## TOTPERSO                     6.301e+04  6.305e+02  99.947  < 2e-16 ***
## FLETES                       5.070e+00  5.203e-02  97.439  < 2e-16 ***
## as.factor(CORRE_9)453-454   -9.877e+06  1.163e+06  -8.493  < 2e-16 ***
## as.factor(CORRE_9)462-463   -1.228e+07  1.093e+06 -11.241  < 2e-16 ***
## as.factor(CORRE_9)464-465   -7.235e+06  1.063e+06  -6.810 1.04e-11 ***
## as.factor(CORRE_9)466-469   -1.101e+07  1.074e+06 -10.247  < 2e-16 ***
## as.factor(CORRE_9)471-472   -1.162e+07  1.136e+06 -10.232  < 2e-16 ***
## as.factor(CORRE_9)473       -1.169e+07  1.128e+06 -10.364  < 2e-16 ***
## as.factor(CORRE_9)474 - 475 -1.058e+07  1.200e+06  -8.820  < 2e-16 ***
## as.factor(CORRE_9)476 - 477 -9.676e+06  1.119e+06  -8.648  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14200000 on 9821 degrees of freedom
## Multiple R-squared:  0.9286, Adjusted R-squared:  0.9285 
## F-statistic: 1.064e+04 on 12 and 9821 DF,  p-value: < 2.2e-16

Despues de obtener estos resultados se presenta a continuación una interpretación para los valores obtenidos:

Parámetro Variable Coeficiente estimado (Estimate) Significancia Interpretación
β₀ (Intercept) 11,150,000 *** Representa la producción bruta promedio para el grupo base de la variable tipo de actividad económica (CORRE_9) cuando las demás variables cuantitativas son 0.
β₁ ROTACION 0.02081 *** Un incremento de una unidad en la rotación se asocia con un aumento promedio de 0.0208 unidades en la producción bruta, manteniendo las demás variables constantes.
β₂ PUBLICI 0.002328 *** Un mayor gasto en publicidad genera, en promedio, un aumento de 0.0023 unidades en la producción bruta, controlando las demás variables.
β₃ TOTPERSO 63,010 *** Cada unidad adicional en el total de personal se relaciona con un incremento promedio de 63.000 unidades en la producción bruta.
β₄ FLETES 0.5070 *** A medida que aumentan los gastos en fletes, la producción bruta también crece en promedio 0.507 unidades.
β₅ Tipo de actividad (CORRE_9: 453–454) -9.877e+06 *** Las actividades clasificadas en este grupo presentan una producción bruta promedio 9.88 millones menor que el grupo base.
β₆ Tipo de actividad (CORRE_9: 462–463) -1.282e+07 *** Este tipo de actividad económica tiene una producción bruta promedio 12.82 millones menor que la del grupo base.
β₇ Tipo de actividad (CORRE_9: 464–465) -7.235e+06 *** Estas actividades muestran una producción bruta promedio 7.24 millones menor respecto al grupo base.
β₈ Tipo de actividad (CORRE_9: 466–469) -1.136e+07 *** La producción bruta promedio es 11.36 millones menor que la del grupo de referencia.
β₉ Tipo de actividad (CORRE_9: 471–472) -1.147e+07 *** Este grupo presenta una producción bruta 11.47 millones menor que el grupo base.
β₁₀ Tipo de actividad (CORRE_9: 473) -1.169e+07 *** Las actividades de este tipo tienen una producción bruta promedio 11.69 millones menor que el grupo base.
β₁₁ Tipo de actividad (CORRE_9: 474–475) -1.058e+07 *** En promedio, la producción bruta de este grupo es 10.58 millones menor respecto al grupo base.
β₁₂ Tipo de actividad (CORRE_9: 476–477) -6.876e+06 *** Las actividades de este tipo registran una producción bruta 6.88 millones menor que la del grupo base.

Todas las variables tienen valores p < 0.001, lo cual indica una alta significancia estadística y respalda la validez del modelo.

El valor de la bondad del ajuste (R²) es de 0,9285; esto quiere decir que el modelo explica aproximadamente el 92,85% de la variabilidad observada en la variable dependiente.

Gráficos de dispersión

Rotación vs BRUTA

En este gráfico observamos que la relación es positiva, las empresas con mayor rotación de inventario tienden a tener un reporte de producción mayor, por lo tanto, esto sugiere que una mayor rotación impulsa la productividad, sin embargo no es el factor de más peso

Publicidad vs BRUTA

Este gráfico sugiere una tendencia positiva, pero se observa un comportamiento heterogéneo, ya que hay empresas que alcanzan altos niveles de producción sin llegar a altos gastos en inversión publicitaria. De la misma forma, hay unidades que con una elevada inversión en publicidad no presentan un aumento proporcional en su producción.

Total de personas vs BRUTA

En este gráfico se aprecia una relación positiva, empresas con mayor número de empleados tienden a reportar una mayor producción bruta, es un patrón común en las empresas, sin embargo, también vemos que algunas empresas logran altos volúmenes de producción con una menor cantidad de personas empleadas, reflejando alta productividad o eficiencia laboral.

Fletes vs BRUTA

El gráfico nos muestra una relación positiva, es decir, a medida que aumentan los gastos logísticos tiende a incrementarse la producción bruta. Sin embargo, presenta alta dispersión y valores atípicos, implicando que la relación no es perfectamente lineal.

Supuestos

Resultados de los supuestos

Normalidad:

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modeloj$residuals
## D = 0.29983, p-value < 2.2e-16

Varianza constante:

## 
##  studentized Breusch-Pagan test
## 
## data:  modeloj
## BP = 2342.9, df = 12, p-value < 2.2e-16

Multicolinealidad:

##                        GVIF Df GVIF^(1/(2*Df))
## ROTACION           5.459076  1        2.336467
## PUBLICI            1.190293  1        1.091005
## TOTPERSO           3.181312  1        1.783623
## FLETES             2.538867  1        1.593382
## as.factor(CORRE_9) 1.055051  8        1.003355

Interpretación de los supuestos

Supuesto de normalidad

La prueba de Lilliefors (Kolmogorov-Smirnov) aplicada a los residuos del modelo arrojó un valor p menor a 0.05, lo que lleva al rechazo de la hipótesis nula de normalidad. Esto indica que los errores del modelo no se distribuyen de manera normal, lo cual constituye una violación de uno de los supuestos clásicos de la regresión lineal. La falta de normalidad puede afectar la validez de las pruebas de significancia estadística de los coeficientes y la construcción de intervalos de confianza, ya que ambos procedimientos asumen que los errores siguen una distribución normal.

Supuesto de homocedasticidad (varianza constante)

El test de Breusch-Pagan presentó un valor p inferior a 0.05, por lo que se rechaza la hipótesis nula de homocedasticidad. En consecuencia, los residuos no mantienen una varianza constante, evidenciando la presencia de heterocedasticidad en el modelo. Esta condición implica que la variabilidad de los errores cambia según los valores de las variables explicativas, lo que puede generar que los errores estándar de los coeficientes sean incorrectos y, por ende, las pruebas t y F resulten poco confiables.

Supuesto de multicolinealidad

El análisis de multicolinealidad mediante el GVIF (Generalized Variance Inflation Factor) mostró valores corregidos inferiores a 5 para todas las variables independientes, lo que indica que no existe colinealidad grave entre ellas. Esto significa que las variables explicativas no presentan relaciones lineales fuertes entre sí, y por tanto, no afectan de manera significativa la estabilidad de los coeficientes del modelo. La ausencia de multicolinealidad asegura que cada variable aporta información única al modelo y que los signos y magnitudes de los coeficientes estimados son confiables. En este sentido, se puede afirmar que el modelo cumple adecuadamente con el supuesto de independencia entre los predictores.

Predicción

Al seleccioanar una predicción con ciertos valores se hace bajo la siguiente ecuación:

BRUTA = 11,150,000 + 0.02081(ROTACION) + 2.328(PUBLICI) + 63,010(TOTPERSO) + 5.07(FLETES) + efecto del tipo de actividad económica (CORRE_9).

Dando como resultado el siguiente valor

##        1 
## 15358793

Esto quiere decir que al aplicar este modelo a una empresa con una rotación de 800.000, un gasto en publicidad de 3.000.000, un total de 50 empleados, costos de fletes por 1.000.000 y perteneciente al grupo de actividad económica 466-469, la utilidad bruta esperada es aproximadamente de $15.360.000.

Esto significa que, bajo las condiciones establecidas y manteniendo los demás factores constantes, una empresa con esas características obtendría una utilidad bruta cercana a quince millones de pesos.

Conclusiones

El análisis de la producción total de las compañías comerciales registradas en la EAC 2022 permitió reconocer los principales factores que afectan su rendimiento económico. Utilizando un modelo de regresión lineal múltiple, se determinó que la rotación de inventarios, la inversión en publicidad, el número de empleados y los gastos en transporte son elementos que explican de manera significativa las variaciones en la producción total. Estos hallazgos permiten observar de una manera más clara cómo las decisiones operativas, las inversiones en promoción y la eficacia logística afectan directamente los niveles de producción en este sector. Rotación de inventario: Se halló una correlación positiva entre la rotación de inventarios y la producción total. Las empresas que actualizan su inventario con mayor frecuencia consiguen mantener un flujo de ventas constante, disminuyen las pérdidas por obsolescencia y mejoran su liquidez. Una administración activa de inventarios se relaciona con una productividad superior y un mejor uso de los recursos.

Gasto en publicidad: La inversión en publicidad tuvo un efecto directo en la producción: por cada unidad monetaria que se invierte, la producción crece en promedio 2. 55 unidades. Sin embargo, el estudio también mostró que algunas empresas logran altas tasas de producción con una inversión publicitaria baja, lo que indica que la eficacia depende de la estrategia comercial y del tipo de mercado al que se dirigen.

Personal ocupado: La cantidad de empleados resultó ser la variable que más influencia tiene en la producción total: cada trabajador adicional contribuye en promedio con 44. 540 unidades monetarias a la producción total. Este descubrimiento destaca la importancia del talento humano como motor de la productividad, aunque también pone de manifiesto las diferencias entre empresas similares, lo que indica la relevancia de la capacitación y la organización interna.

Gastos en fletes: Los costos de transporte y distribución también mostraron una relación positiva con la producción. Las empresas que cuentan con redes logísticas más eficientes logran aumentar sus volúmenes de producción y ventas, lo que enfatiza la necesidad de mejorar los sistemas de entrega y distribución como componentes esenciales del desempeño logístico y operativo.

Diferencias entre subsectores: El análisis por clasificación según el código CIIU reveló que, en comparación con el grupo base (vehículos automóviles), otros subsectores como el comercio minorista de alimentos y el mayorista de materias primas tienen promedios de producción más bajos. Estas diferencias pueden deberse a los niveles de rentabilidad, la naturaleza de los productos o el nivel tecnológico de cada actividad.

Los hallazgos sugieren que las empresas deben enfocarse en mejorar la gestión de inventarios y logística, además de aumentar la eficiencia del gasto público con estrategias más específicas. También se aconseja invertir en la capacitación del personal y avanzar en la digitalización de procesos, sobre todo en los subsectores que presentan menor productividad. El modelo utilizado mostró un buen grado de ajuste y coherencia económica, cumpliendo así con el objetivo de identificar los factores esenciales que impulsan la producción total en el comercio colombiano.

Referencias

Departamento Administrativo Nacional de Estadística – DANE. (2023). Encuesta Anual de Comercio – EAC 2022 [Microdatos]. Microdatos DANE. https://microdatos.dane.gov.co/index.php/catalog/833