Taller de regresión lineal: “Relación de la inversión en capacitación y el numero de personal ocupado con los ingresos totales”

Contexto:

El procedimiento es realizado para determinar la relación e importancia que tiene la labor realizada por el personal en las empresas de la industria del país. Para ello se hace uso de la herramienta R studio donde por medio de diferentes herramientas que ofrece el programa se logra ver la correlacion existente entre 3 variables relacionadas por la importancia de un personal capacitado y la influencia que tiene el número de trabajdores con los ingresos de las empresas.

Variables utilizadas:

I3R2C1 = Ingresos o ventas nacionales totales 2020 (Miles de pesos corrientes).

II1R9C2 = Formación y capacitación. Monto invertido 2020.

IV1R11C2 = Total personal ocupado promedio 2020.

Correlación:

A continuación se muestra la correlación existente entre la variable dependiente con las independientes.

library(readxl)
EDIT_X_2019_20200 <- read_excel("EDIT_X_2019_20200.xlsx")
datos1=as.data.frame(EDIT_X_2019_20200)

datos1$I3R2C1=as.numeric(datos1$I3R2C1)       
datos1$II1R9C2=as.numeric(datos1$II1R9C2)     
datos1$IV1R11C2=as.numeric(datos1$IV1R11C2)  

cor.test(datos1$I3R2C1,datos1$II1R9C2)
## 
##  Pearson's product-moment correlation
## 
## data:  datos1$I3R2C1 and datos1$II1R9C2
## t = 41.405, df = 1976, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6572495 0.7044910
## sample estimates:
##       cor 
## 0.6815798
cor.test(datos1$I3R2C1,datos1$IV1R11C2)
## 
##  Pearson's product-moment correlation
## 
## data:  datos1$I3R2C1 and datos1$IV1R11C2
## t = 46.055, df = 6796, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4693805 0.5056210
## sample estimates:
##       cor 
## 0.4877108

Los coeficientes de correlación entre los ingresos totales y la inversión en capacitación es de 0.68 (Correlación alta). Y entre los ingresos totales y el total de personal ocupado es de aproximadamente 0.48 (Correlacion media). Para los dos casos el p-value es muy pequeño, lo que nos indica que existe una correlación clara entre las variables.

Regresión lineal y gráfico:

La regresión lineal se realiza por medio de la función lm, con la función summary se presentan los datos en general que entrega la herramienta. Para realizar la gráfica se usa la función plot, indicando las variables que usan y de esta manera se puede ilustrar la relación entre las variables

modelo12=lm(datos1$I3R2C1~datos1$II1R9C2+datos1$IV1R11C2)
y=summary(modelo12)
print(y)
## 
## Call:
## lm(formula = datos1$I3R2C1 ~ datos1$II1R9C2 + datos1$IV1R11C2)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -650790163  -25010787  -10492687   -5468107 3615090844 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     3.584e+06  4.319e+06    0.83    0.407    
## datos1$II1R9C2  9.530e+02  2.091e+01   45.58   <2e-16 ***
## datos1$IV1R11C2 2.601e+05  9.548e+03   27.25   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 165300000 on 1975 degrees of freedom
##   (4820 observations deleted due to missingness)
## Multiple R-squared:  0.6108, Adjusted R-squared:  0.6104 
## F-statistic:  1550 on 2 and 1975 DF,  p-value: < 2.2e-16
plot(modelo12, main="Regresión lineal")

z=coefficients(modelo12)
print(z)
##     (Intercept)  datos1$II1R9C2 datos1$IV1R11C2 
##    3583506.2421        952.9621     260140.1441

Como se puede ver hay un valor para p value muy pequeño, lo que confirma que existe una clara correlación a nivel general, también para cada variable se obtiene un valor de igual magnitud lo que nos indica una significancia estadistica destacable para el model, significa que su efecto en los ingresos no hace parte de la casualidad.

El R cuadrado que dió 0.61 indica un alto porcentaje de variabilidad respecto al comportamiento de las otras variables a la hora de hacer una predicción.

En cuanto a las gráficas, el analisis es el siguiente.

1. Gráfico de Dispersión con Línea de Regresión

Propósito: Mostrar la relación entre la variable independiente y las dependientes, cada punto nos representa un dato real de la base de datos y la línea representa el modelo ajustado con la formula, los puntos mas cercanos a la línea tienen un buen ajuste, Se logra observar un relación positiva entre la variable dependiente y las independientes ya que el comportamiento de la variable dependiente depende la independiente.

2. Gráfico de Residuos

Esta nos ayuda a evaluar el ajuste y nos muestra los valores teóricos y los residuos, esto nos enseña como los puntos están distribuidos alrededor de Y=0, Esto nos ayuda a interpretar si el modelo es adecuado o no.

3. Gráfico Comparativo de Predicción y Valores Reales

Nos ayuda a comprar las predicciones del modelo con los valores reales, esa línea casi diagonal representa el ideal, o donde las predicciones coinciden perfectamente con los valores reales. Entre mas cerca este el punto de la línea mas precisa es la predicción.

4. Gráfico de Distribución de las Variables

Nos Permite analizar la distribución de las variables para identificar si siguen una distribución normal o presentan sesgos.

Conclusión.

Gracias al estudio realizado se pudo observar que las variables tienen un grado alto- medio de correlación y existe un porcentaje considerable de variabilidad de los ingresos totales de las empresas respecto a la capacitación del personal como también el numero de trabajadores presentes en una empresa.