El departamento administrativo nacional de estadística de Colombia realiza cada año una encuesta anual manufacturera que comprende los siguientes aspectos:
La Encuesta Anual Manufacturera EAM, identifica el comportamiento del sector manufacturero a nivel nacional, que comprende las actividades homogéneas por grupo de producción; e identificación de las actividades manufactureras específicas (agrupadas a 4 dígitos-base industrial) de acuerdo con su producción según la CIIU Rev. 4 A.C y la Clasificación central de productos CPC.
Para la recolección de la EAM 2019, se estableció como parámetro de inclusión 500 millones de pesos anuales en ingresos o 10 personas ocupadas.
Los módulos que tiene la encuesta son los siguientes:
Modulo I: Caratula Única Empresarial e información de los establecimientos industriales.
Módulo II: Promedio de personal ocupado y costos y gastos del personal.
Módulo III: Costos y gastos de la actividad Industrial y Activos fijos del establecimiento
Módulo IV: Energía Eléctrica y otros energéticos consumidos.
Modulo V: Productos elaborados, materias primas consumidas y existencias.
Modulo VI: Ingresos de otras actividades diferentes a la industrial, Información de Unidades Auxiliares y Tecnologías de la Información y comunicaciones TIC.
A partir del año 2007 la EAM cuenta con un módulo relacionado con las Tecnologías de la Información y las Comunicaciones (TIC), el cual tiene como objetivo medir el acceso y uso que las empresas industriales manufactureras hacen de estas tecnologías, tales como el uso de computador, tableta o teléfono móvil, el servicio de internet, redes computacionales, uso de programas de teletrabajo, entre otros.
Finalmente, esta información permite a las empresas, al gobierno y al público en general tomar decisiones y hacer análisis para formular políticas públicas, privadas o simplemente recopilar datos e información de gran importancia.
*Tomado de la página del DANE.
Este análisis que se plantea a continuación pretende realizar una regresión lineal con el objetivo de identificar si una variable dependente que es las ventas tiene relación lineal con las siguientes variables:
Y una variable categórica la cual corresponde a los CIIU de los cuales hemos elegido los siguientes:
La información para el análisis ha sido tomada de:
[https://microdatos.dane.gov.co/index.php/catalog/694]
Lo primero que realizamos es un análisis gráfico de la relación entre las variables:
A continuación la Variable de ventas con la de valor de los activos:
*Los valores para las gráficas han sido reducidos a millones para su mejor entendimiento y facilidad de lectura de las mismas.
ventasyAF <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y= ventasmiles$activosmil))+
geom_point (color="blue", size=2, alpha=1)+
theme_light()+
labs(title = "Ventas Vs Activos", x = "Ventas", y= "Activos fijos")
ggplotly(ventasyAF)
A continuación el gráfico lineal de la variable ventas con la de consumo de materias:
ventasycos <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$CONSMATEMIL))+
geom_point (color="red", size=1, alpha=0.5)+
theme_minimal()+
labs(title = "Ventas Vs Consumo de materias", x = "Ventas", y= "Consumo de materias")
ggplotly(ventasycos)
A continuación se analiza la gráfica de ventas con la de Personal permanente y temporal directo
ventasyppye <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$PPERYTEMMIL))+
geom_point (color="yellow", size=3, alpha=1)+
theme_classic()+
labs(title = "Ventas Vs Salarios Permanentes y temporales", x = "Ventas", y= "Salarios de personal permanente y temporal")
ggplotly(ventasyppye)
Esta gráfica representa las ventas y materia prima comprada:
ventasyvcom <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$VALORCOMMIL))+
geom_point (color="black", size=1, alpha=0.3)+
theme_get ()+
labs(title = "Ventas Vs Consumo de materiales", x = "Ventas", y= "Consumo de materiales")
ggplotly(ventasyvcom)
La gráfica a continuación representa las ventas y los salarios del personal permanente:
ventasysal <- ggplot(EAM1, aes (x = ventasmiles$VENTASMIL, y=ventasmiles$SALARPERMIL))+
geom_point (color="#38a121", size=1, alpha=1)+
theme_test()+
labs(title = "Ventas Vs Salarios Permanentes", x = "Ventas", y= "Salarios de personal permanente")
ggplotly(ventasysal)
EAM1 %>%
group_by(as.factor(ciiu4)) %>%
summarise(suma = sum(VALORVEN), meadia = mean(VALORVEN))
## # A tibble: 4 × 3
## `as.factor(ciiu4)` suma meadia
## <fct> <dbl> <dbl>
## 1 1011 10764070130 66037240.
## 2 2022 1956042371 28765329.
## 3 2023 9963108492 56288749.
## 4 2229 6402890360 15578809.
Se procede con el cálculo de las correlaciones entre las variables.
names(EAM1)
## [1] "VALORVEN" "CONSMATE" "PPERYTEM" "VALORCOM" "ACTIVFI" "SALARPER" "ciiu4"
## [8] "dpto" "nordest"
cor(EAM1$PPERYTEM, EAM1$VALORVEN)
## [1] 0.8145205
cor(EAM1$VALORCOM, EAM1$VALORVEN)
## [1] 0.9577564
cor(EAM1$ACTIVFI, EAM1$VALORVEN)
## [1] 0.8271168
cor(EAM1$SALARPER, EAM1$VALORVEN)
## [1] 0.7760795
cor(EAM1$CONSMATE, EAM1$VALORVEN)
## [1] 0.9515194
A continuación tenemos la aplicación del modelo lineal a las variables
P1 <- lm( VALORVEN ~ PPERYTEM+VALORCOM+ACTIVFI+SALARPER+CONSMATE+ as.factor(ciiu4), EAM1)
P1
##
## Call:
## lm(formula = VALORVEN ~ PPERYTEM + VALORCOM + ACTIVFI + SALARPER +
## CONSMATE + as.factor(ciiu4), data = EAM1)
##
## Coefficients:
## (Intercept) PPERYTEM VALORCOM
## -5.016e+06 -5.351e+04 1.539e-01
## ACTIVFI SALARPER CONSMATE
## 3.393e-01 5.160e+00 1.383e+00
## as.factor(ciiu4)2022 as.factor(ciiu4)2023 as.factor(ciiu4)2229
## -1.214e+06 8.637e+06 2.994e+06
summary(P1)
##
## Call:
## lm(formula = VALORVEN ~ PPERYTEM + VALORCOM + ACTIVFI + SALARPER +
## CONSMATE + as.factor(ciiu4), data = EAM1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -111360623 -2948675 1861032 4181446 88948184
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.016e+06 1.461e+06 -3.434 0.000626 ***
## PPERYTEM -5.351e+04 7.423e+03 -7.208 1.30e-12 ***
## VALORCOM 1.539e-01 6.229e-02 2.471 0.013687 *
## ACTIVFI 3.393e-01 2.990e-02 11.349 < 2e-16 ***
## SALARPER 5.160e+00 3.135e-01 16.460 < 2e-16 ***
## CONSMATE 1.383e+00 4.999e-02 27.660 < 2e-16 ***
## as.factor(ciiu4)2022 -1.214e+06 2.439e+06 -0.498 0.618856
## as.factor(ciiu4)2023 8.637e+06 1.877e+06 4.601 4.88e-06 ***
## as.factor(ciiu4)2229 2.994e+06 1.612e+06 1.858 0.063602 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16430000 on 810 degrees of freedom
## Multiple R-squared: 0.9698, Adjusted R-squared: 0.9695
## F-statistic: 3254 on 8 and 810 DF, p-value: < 2.2e-16
Para el caso de estudio tenemos que la variable “y” ventas, tiene una relación significante con el personal permanente y temporal, los activos fijos, el salario del personal permanente, la compra de materiales y el consumo de materiales, entre tanto el consumo de materiales no es tan significante como las variables que anteceden.
La variable categórica CIIU tiene una relación significante en el código 2023 mientras que los otros dos códigos que son 2022 y 2229 guardan una relación que tiende a ser igual que el código 1011 que fue aquel que R se reservó para este estudio.
Finalmente el R ajustado del modelo es del 96.95% lo cual indica que las variables elegidas explican las ventas en ese porcentaje.
shapiro.test(P1$residuals)
##
## Shapiro-Wilk normality test
##
## data: P1$residuals
## W = 0.65472, p-value < 2.2e-16
En conclusión el modelo lineal propuesto teniendo en cuenta a “y” como las ventas y las variables elegidas no permite que podamos sacar una conlusión al respecto de toda la población, es un modelo que solo nos permite concluir sobre la muestra tomada. Esto de acuerdo con el análisis del valor p que es muy inferior a 0.05 lo cual nos indica que el modelo no es normal.