Encuesta Anual Manufacturera

El departamento administrativo nacional de estadística de Colombia realiza cada año una encuesta anual manufacturera que comprende los siguientes aspectos:

La Encuesta Anual Manufacturera EAM, identifica el comportamiento del sector manufacturero a nivel nacional, que comprende las actividades homogéneas por grupo de producción; e identificación de las actividades manufactureras específicas (agrupadas a 4 dígitos-base industrial) de acuerdo con su producción según la CIIU Rev. 4 A.C y la Clasificación central de productos CPC.

Para la recolección de la EAM 2019, se estableció como parámetro de inclusión 500 millones de pesos anuales en ingresos o 10 personas ocupadas.

Los módulos que tiene la encuesta son los siguientes:

Modulo I: Caratula Única Empresarial e información de los establecimientos industriales.
Módulo II: Promedio de personal ocupado y costos y gastos del personal.
Módulo III: Costos y gastos de la actividad Industrial y Activos fijos del establecimiento
Módulo IV: Energía Eléctrica y otros energéticos consumidos.
Modulo V: Productos elaborados, materias primas consumidas y existencias.
Modulo VI: Ingresos de otras actividades diferentes a la industrial, Información de Unidades Auxiliares y Tecnologías de la Información y comunicaciones TIC.

A partir del año 2007 la EAM cuenta con un módulo relacionado con las Tecnologías de la Información y las Comunicaciones (TIC), el cual tiene como objetivo medir el acceso y uso que las empresas industriales manufactureras hacen de estas tecnologías, tales como el uso de computador, tableta o teléfono móvil, el servicio de internet, redes computacionales, uso de programas de teletrabajo, entre otros.

Finalmente, esta información permite a las empresas, al gobierno y al público en general tomar decisiones y hacer análisis para formular políticas públicas, privadas o simplemente recopilar datos e información de gran importancia.

*Tomado de la página del DANE.

Caso de estudio

Este análisis que se plantea a continuación pretende realizar una regresión lineal con el objetivo de identificar si una variable dependente que es las ventas tiene relación lineal con las siguientes variables:

Personal permanente y temporal directo
Consumo de materias
Valor de la materia prima comprada
Valor de los activos fijos
Salarios del personal permanente

Y una variable categórica la cual corresponde a los CIIU de los cuales hemos elegido los siguientes:

1011
2022
2023
2229

La información para el análisis ha sido tomada de:

[https://microdatos.dane.gov.co/index.php/catalog/694]

Gráficas lineales

Lo primero que realizamos es un análisis gráfico de la relación entre las variables:

A continuación la Variable de ventas con la de valor de los activos:

*Los valores para las gráficas han sido reducidos a millones para su mejor entendimiento y facilidad de lectura de las mismas.

ventasyAF <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y= ventasmiles$activosmil))+
  geom_point (color="blue", size=2, alpha=1)+
  theme_light()+
  labs(title = "Ventas Vs Activos", x = "Ventas", y= "Activos fijos")

ggplotly(ventasyAF)

A continuación el gráfico lineal de la variable ventas con la de consumo de materias:

ventasycos <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$CONSMATEMIL))+
  geom_point (color="red", size=1, alpha=0.5)+
  theme_minimal()+
  labs(title = "Ventas Vs Consumo de materias", x = "Ventas", y= "Consumo de materias")

ggplotly(ventasycos)

A continuación se analiza la gráfica de ventas con la de Personal permanente y temporal directo

ventasyppye <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$PPERYTEMMIL))+
  geom_point (color="yellow", size=3, alpha=1)+
  theme_classic()+
  labs(title = "Ventas Vs Salarios Permanentes y temporales", x = "Ventas", y= "Salarios de personal permanente y temporal")

ggplotly(ventasyppye)

Esta gráfica representa las ventas y materia prima comprada:

ventasyvcom <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$VALORCOMMIL))+
  geom_point (color="black", size=1, alpha=0.3)+
  theme_get ()+
  labs(title = "Ventas Vs Consumo de materiales", x = "Ventas", y= "Consumo de materiales")

ggplotly(ventasyvcom)

La gráfica a continuación representa las ventas y los salarios del personal permanente:

ventasysal <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$SALARPERMIL))+
  geom_point (color="#38a121", size=1, alpha=1)+
  theme_test()+
  labs(title = "Ventas Vs Salarios Permanentes", x = "Ventas", y= "Salarios de personal permanente")

ggplotly(ventasysal)

EAM1 %>%
    group_by(as.factor(ciiu4)) %>%
    summarise(suma = sum(VALORVEN), meadia = mean(VALORVEN))

## # A tibble: 4 × 3
##   `as.factor(ciiu4)`        suma    meadia
##   <fct>                    <dbl>     <dbl>
## 1 1011               10764070130 66037240.
## 2 2022                1956042371 28765329.
## 3 2023                9963108492 56288749.
## 4 2229                6402890360 15578809.

Correlación entre las variables

Se procede con el cálculo de las correlaciones entre las variables.

names(EAM1)

## [1] "VALORVEN" "CONSMATE" "PPERYTEM" "VALORCOM" "ACTIVFI"  "SALARPER" "ciiu4"   
## [8] "dpto"     "nordest"

cor(EAM1$PPERYTEM, EAM1$VALORVEN)

## [1] 0.8145205

cor(EAM1$VALORCOM, EAM1$VALORVEN)

## [1] 0.9577564

cor(EAM1$ACTIVFI, EAM1$VALORVEN)

## [1] 0.8271168

cor(EAM1$SALARPER, EAM1$VALORVEN)

## [1] 0.7760795

cor(EAM1$CONSMATE, EAM1$VALORVEN)

## [1] 0.9515194

Modelo Lineal

A continuación tenemos la aplicación del modelo lineal a las variables

P1 <- lm( VALORVEN ~  PPERYTEM+VALORCOM+ACTIVFI+SALARPER+CONSMATE+ as.factor(ciiu4), EAM1)

P1

## 
## Call:
## lm(formula = VALORVEN ~ PPERYTEM + VALORCOM + ACTIVFI + SALARPER + 
##     CONSMATE + as.factor(ciiu4), data = EAM1)
## 
## Coefficients:
##          (Intercept)              PPERYTEM              VALORCOM  
##           -5.016e+06            -5.351e+04             1.539e-01  
##              ACTIVFI              SALARPER              CONSMATE  
##            3.393e-01             5.160e+00             1.383e+00  
## as.factor(ciiu4)2022  as.factor(ciiu4)2023  as.factor(ciiu4)2229  
##           -1.214e+06             8.637e+06             2.994e+06

summary(P1)

## 
## Call:
## lm(formula = VALORVEN ~ PPERYTEM + VALORCOM + ACTIVFI + SALARPER + 
##     CONSMATE + as.factor(ciiu4), data = EAM1)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -111360623   -2948675    1861032    4181446   88948184 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -5.016e+06  1.461e+06  -3.434 0.000626 ***
## PPERYTEM             -5.351e+04  7.423e+03  -7.208 1.30e-12 ***
## VALORCOM              1.539e-01  6.229e-02   2.471 0.013687 *  
## ACTIVFI               3.393e-01  2.990e-02  11.349  < 2e-16 ***
## SALARPER              5.160e+00  3.135e-01  16.460  < 2e-16 ***
## CONSMATE              1.383e+00  4.999e-02  27.660  < 2e-16 ***
## as.factor(ciiu4)2022 -1.214e+06  2.439e+06  -0.498 0.618856    
## as.factor(ciiu4)2023  8.637e+06  1.877e+06   4.601 4.88e-06 ***
## as.factor(ciiu4)2229  2.994e+06  1.612e+06   1.858 0.063602 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16430000 on 810 degrees of freedom
## Multiple R-squared:  0.9698, Adjusted R-squared:  0.9695 
## F-statistic:  3254 on 8 and 810 DF,  p-value: < 2.2e-16

Para el caso de estudio tenemos que la variable “y” ventas, tiene una relación significante con el personal permanente y temporal, los activos fijos, el salario del personal permanente, la compra de materiales y el consumo de materiales, entre tanto el consumo de materiales no es tan significante como las variables que anteceden.

La variable categórica CIIU tiene una relación significante en el código 2023 mientras que los otros dos códigos que son 2022 y 2229 guardan una relación que tiende a ser igual que el código 1011 que fue aquel que R se reservó para este estudio.

Finalmente el R ajustado del modelo es del 96.95% lo cual indica que las variables elegidas explican las ventas en ese porcentaje.

Shapiro test

shapiro.test(P1$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  P1$residuals
## W = 0.65472, p-value < 2.2e-16

Conclusión del modelo lineal

En conclusión el modelo lineal propuesto teniendo en cuenta a “y” como las ventas y las variables elegidas no permite que podamos sacar una conlusión al respecto de toda la población, es un modelo que solo nos permite concluir sobre la muestra tomada. Esto de acuerdo con el análisis del valor p que es muy inferior a 0.05 lo cual nos indica que el modelo no es normal.

Modelo de regresión en el sector manufacturero

Marvín Duvan Mina y Juan Pablo Realpe

2023-02-13