La Regresión Lineal corresponde a una especie de análisis estadístico que se utiliza para modelar la relación que existe entre una variable dependiente (conocida también variable de respuesta) y una o más variables independientes (llamadas también predictoras). El objetivo de la regresión lineal es encontrar una línea recta (o una ecuación) que describa esta relación.

Ejemplo: Se realizó el estudio sobre una base de datos colombiana, la cual almacena datos correspondientes a todas la empresas u organizaciones del país insertadas directamente por el marco de lista del censo de las grandes empresas del sector industrial que cumplen con los parámetros de inclusión establecidos, a través de la Encuesta de Desarrollo e Innovación Tecnológica aplicada al sector manufacturero (EDIT X, 2019-2020), realizada por el DANE (El Departamento Administrativo Nacional de Estadística),contribuyendo con esto a cumplir el objetivo de institucionalizar la producción de información estadística nacional de alta calidad relativa a los cambios técnicos y de innovación en Colombia.

Esta base de datos cuenta con 729 variables aproximadamente, las cuales son de tipo entero, la mayoría indicando datos cuantitativos, y otras datos de tipo BOULEANO(TRE/FALSE).

El estudio realizado se dividió en dos partes. Primero se analizó la relación entre la producción total(personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020) como variable dependiente (y) con respecto a las dos variables independientes (x), el personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020, según su área funcional principal y sexo, en este caso, el área de producción, hombre y mujeres.

Por otro lado, se observó el comportamiento de la relación entre los ingresos/ventas nacionales totales del año 2020 de las empresas en colombia (en miles de pesos corrientes) como variable dependiente (y), con respecto a las variables independientes (x), los ingresos/ventas nacionales totales del año 2019 de las empresas en colombia (en miles de pesos corrientes) y la producción total (personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020). Para esto, hicimos uso de la regresión lineal múltiple.

Variables explicativas o predictoras:

V49 (ingresos/ventas nacionales totales del año 2019), V312 (Producción. Mujeres), V311 (Producción. Hombres)

Variables dependientes o de respuesta:

V51 (ingresos/ventas nacionales totales del año 2020), V313 (producción total)

Obteniendo como resultado lo siguiente:

#FUERZA DE RELACIÓN REGRESIÓN 1

data$V313 <- as.numeric(as.character(data$V313))

data$V312 <- as.numeric(as.character(data$V312))

data <- data[!is.na(data$V313) & !is.na(data$V312), ]

cor.test(data$V313, data$V312)
## 
##  Pearson's product-moment correlation
## 
## data:  data$V313 and data$V312
## t = 35.478, df = 1712, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6227671 0.6773920
## sample estimates:
##       cor 
## 0.6509213
#Realizamos la Regresión Lineal SIMPLE 1
modelo <- lm(V313 ~ V311 + V312, data = data)
summary(modelo)
## 
## Call:
## lm(formula = V313 ~ V311 + V312, data = data)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -6.514e-12  0.000e+00  5.500e-15  5.500e-15  4.530e-12 
## 
## Coefficients:
##              Estimate Std. Error   t value Pr(>|t|)    
## (Intercept) 5.406e-15  9.940e-15 5.440e-01    0.587    
## V3111       1.000e+00  1.840e-14 5.436e+13   <2e-16 ***
## V31110      1.000e+01  7.385e-14 1.354e+14   <2e-16 ***
## V31111      1.100e+01  6.068e-14 1.813e+14   <2e-16 ***
## V31112      1.200e+01  8.478e-14 1.415e+14   <2e-16 ***
## V31114      1.400e+01  6.288e-14 2.226e+14   <2e-16 ***
## V31115      1.500e+01  2.725e-13 5.505e+13   <2e-16 ***
## V31116      1.600e+01  1.576e-13 1.015e+14   <2e-16 ***
## V31118      1.800e+01  1.133e-13 1.589e+14   <2e-16 ***
## V3112       2.000e+00  2.231e-14 8.963e+13   <2e-16 ***
## V31122      2.200e+01  2.725e-13 8.073e+13   <2e-16 ***
## V31123      2.300e+01  7.441e-14 3.091e+14   <2e-16 ***
## V311244     2.440e+02  1.780e-13 1.371e+15   <2e-16 ***
## V31126      2.600e+01  2.731e-13 9.519e+13   <2e-16 ***
## V31127      2.700e+01  1.974e-13 1.368e+14   <2e-16 ***
## V31128      2.800e+01  2.752e-13 1.018e+14   <2e-16 ***
## V3113       3.000e+00  2.794e-14 1.074e+14   <2e-16 ***
## V31130      3.000e+01  2.725e-13 1.101e+14   <2e-16 ***
## V31131      3.100e+01  1.974e-13 1.571e+14   <2e-16 ***
## V31132      3.200e+01  2.747e-13 1.165e+14   <2e-16 ***
## V31135      3.500e+01  1.583e-13 2.210e+14   <2e-16 ***
## V3114       4.000e+00  2.963e-14 1.350e+14   <2e-16 ***
## V31141      4.100e+01  2.734e-13 1.499e+14   <2e-16 ***
## V3115       5.000e+00  3.322e-14 1.505e+14   <2e-16 ***
## V3116       6.000e+00  5.337e-14 1.124e+14   <2e-16 ***
## V3117       7.000e+00  5.958e-14 1.175e+14   <2e-16 ***
## V3118       8.000e+00  6.964e-14 1.149e+14   <2e-16 ***
## V3119       9.000e+00  1.231e-13 7.313e+13   <2e-16 ***
## V312        1.000e+00  3.931e-15 2.544e+14   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.723e-13 on 1685 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 1.248e+29 on 28 and 1685 DF,  p-value: < 2.2e-16
#Ecuación 
modelo$coefficients
## (Intercept)       V3111      V31110      V31111      V31112      V31114 
## 5.40624e-15 1.00000e+00 1.00000e+01 1.10000e+01 1.20000e+01 1.40000e+01 
##      V31115      V31116      V31118       V3112      V31122      V31123 
## 1.50000e+01 1.60000e+01 1.80000e+01 2.00000e+00 2.20000e+01 2.30000e+01 
##     V311244      V31126      V31127      V31128       V3113      V31130 
## 2.44000e+02 2.60000e+01 2.70000e+01 2.80000e+01 3.00000e+00 3.00000e+01 
##      V31131      V31132      V31135       V3114      V31141       V3115 
## 3.10000e+01 3.20000e+01 3.50000e+01 4.00000e+00 4.10000e+01 5.00000e+00 
##       V3116       V3117       V3118       V3119        V312 
## 6.00000e+00 7.00000e+00 8.00000e+00 9.00000e+00 1.00000e+00
#FUERZA DE RELACIÓN REGRESIÓN SIMPLE 2
data2$V51 <- as.numeric(as.character(data2$V51))

data2$V313 <- as.numeric(as.character(data2$V313))

cor.test(data2$V51, data2$V313)
## 
##  Pearson's product-moment correlation
## 
## data:  data2$V51 and data2$V313
## t = 7.7537, df = 1712, p-value = 1.521e-14
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1380448 0.2295344
## sample estimates:
##       cor 
## 0.1841885
#Realizamos la Regresión Lineal 2
modelo2 <- lm(V51 ~ V49 + V313, data = data2)

summary(modelo2)
## 
## Call:
## lm(formula = V51 ~ V49 + V313, data = data2)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -312900970  -11996855  -10594194   -4061195  471860142 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.126e+07  1.131e+06   9.957  < 2e-16 ***
## V49         8.034e-01  3.119e-03 257.627  < 2e-16 ***
## V313        5.140e+05  8.787e+04   5.850 5.89e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 44130000 on 1711 degrees of freedom
##   (5085 observations deleted due to missingness)
## Multiple R-squared:  0.9757, Adjusted R-squared:  0.9757 
## F-statistic: 3.438e+04 on 2 and 1711 DF,  p-value: < 2.2e-16
#Ecuación 
modelo2$coefficients
##  (Intercept)          V49         V313 
## 1.126497e+07 8.034237e-01 5.140258e+05

Vemos que, según nuestra prueba de hipótesis, si existe una relación lineal, pues nuestro p-value es menor a 0.05 en ambas regresiones, así que rechazamos la hipótesis nula. Sin embargo, en los coeficientes, obtenemos lo siguiente:

En la Regresión lineal 1, encontramos un coeficiente igual a 0.6509213, por lo que, al ser de signo positiva, es directa. Es decir, al aumentar el número de personal ocupado promedio mujer que participó en actividades científicas, tecnológicas y de innovación en su empresa, aumenta el personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020, obteniendo una fuerza de correlación alta.

En la Regresión lineal 2, encontramos un coeficiente igual a 0.1841885, por lo que, al ser de signo positiva, es directa. Es decir, al aumentar el número de personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020, aumenta los ingresos/ventas nacionales totales del año 2020 de las empresas en colombia (en miles de pesos corrientes).Pero, se tiene que existe una fuerza de esta asociación entre estos 2 items es baja, es decir que, su relación carece de gran relevancia.

¿Ambos modelos de regresión lineal múltiple son válidos en su? conjunto?

Regresión 1

En este caso el p-value, al ser menor que 0.05 nos indica que podemos rechazar la hipótesis nula, es decir, que la hipótesis que indica que el modelo no es válido, por lo que el modelo funciona.

Para medir la capacidad predictiva de nuestro modelo tenemos, el R cuadrado ajustado (Adjusted R-squared), el cual, al ser de 1, nos indica de que el modelo explica el 100% de la variabilidad de nuestra variable de respuesta (y), la producción total.

Regresión 1

En este caso el p-value, al ser menor que 0.05 nos indica que podemos rechazar la hipótesis nula, es decir, que la hipótesis que indica que el modelo no es válido, por lo que el modelo funciona. Asimismo, vemos el cambio en su valor con respecto a la regresión lineal múltiple.

Para medir la capacidad predictiva de nuestro modelo tenemos, el R cuadrado ajustado (Adjusted R-squared), el cual, al ser de 0.9757, nos indica de que el modelo explica el 98% de la variabilidad de nuestra variable de respuesta (y), la producción total.

Regresión Lineal simple

A continuación se observan dos diagramas de dispersión correspondientes a las 2 regresiones lineales que establecen la relación lineal entre una variable dependiente y otra independiente.

Gráficas de dispersión