La Regresión Lineal corresponde a una especie de análisis estadístico que se utiliza para modelar la relación que existe entre una variable dependiente (conocida también variable de respuesta) y una o más variables independientes (llamadas también predictoras). El objetivo de la regresión lineal es encontrar una línea recta (o una ecuación) que describa esta relación.
Ejemplo: Se realizó el estudio sobre una base de datos colombiana, la cual almacena datos correspondientes a todas la empresas u organizaciones del país insertadas directamente por el marco de lista del censo de las grandes empresas del sector industrial que cumplen con los parámetros de inclusión establecidos, a través de la Encuesta de Desarrollo e Innovación Tecnológica aplicada al sector manufacturero (EDIT X, 2019-2020), realizada por el DANE (El Departamento Administrativo Nacional de Estadística),contribuyendo con esto a cumplir el objetivo de institucionalizar la producción de información estadística nacional de alta calidad relativa a los cambios técnicos y de innovación en Colombia.
Esta base de datos cuenta con 729 variables aproximadamente, las cuales son de tipo entero, la mayoría indicando datos cuantitativos, y otras datos de tipo BOULEANO(TRE/FALSE).
El estudio realizado se dividió en dos partes. Primero se analizó la relación entre la producción total(personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020) como variable dependiente (y) con respecto a las dos variables independientes (x), el personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020, según su área funcional principal y sexo, en este caso, el área de producción, hombre y mujeres.
Por otro lado, se observó el comportamiento de la relación entre los ingresos/ventas nacionales totales del año 2020 de las empresas en colombia (en miles de pesos corrientes) como variable dependiente (y), con respecto a las variables independientes (x), los ingresos/ventas nacionales totales del año 2019 de las empresas en colombia (en miles de pesos corrientes) y la producción total (personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020). Para esto, hicimos uso de la regresión lineal múltiple.
V49 (ingresos/ventas nacionales totales del año 2019), V312 (Producción. Mujeres), V311 (Producción. Hombres)
V51 (ingresos/ventas nacionales totales del año 2020), V313 (producción total)
Obteniendo como resultado lo siguiente:
#FUERZA DE RELACIÓN REGRESIÓN 1
data$V313 <- as.numeric(as.character(data$V313))
data$V312 <- as.numeric(as.character(data$V312))
data <- data[!is.na(data$V313) & !is.na(data$V312), ]
cor.test(data$V313, data$V312)
##
## Pearson's product-moment correlation
##
## data: data$V313 and data$V312
## t = 35.478, df = 1712, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6227671 0.6773920
## sample estimates:
## cor
## 0.6509213
#Realizamos la Regresión Lineal SIMPLE 1
modelo <- lm(V313 ~ V311 + V312, data = data)
summary(modelo)
##
## Call:
## lm(formula = V313 ~ V311 + V312, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.514e-12 0.000e+00 5.500e-15 5.500e-15 4.530e-12
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.406e-15 9.940e-15 5.440e-01 0.587
## V3111 1.000e+00 1.840e-14 5.436e+13 <2e-16 ***
## V31110 1.000e+01 7.385e-14 1.354e+14 <2e-16 ***
## V31111 1.100e+01 6.068e-14 1.813e+14 <2e-16 ***
## V31112 1.200e+01 8.478e-14 1.415e+14 <2e-16 ***
## V31114 1.400e+01 6.288e-14 2.226e+14 <2e-16 ***
## V31115 1.500e+01 2.725e-13 5.505e+13 <2e-16 ***
## V31116 1.600e+01 1.576e-13 1.015e+14 <2e-16 ***
## V31118 1.800e+01 1.133e-13 1.589e+14 <2e-16 ***
## V3112 2.000e+00 2.231e-14 8.963e+13 <2e-16 ***
## V31122 2.200e+01 2.725e-13 8.073e+13 <2e-16 ***
## V31123 2.300e+01 7.441e-14 3.091e+14 <2e-16 ***
## V311244 2.440e+02 1.780e-13 1.371e+15 <2e-16 ***
## V31126 2.600e+01 2.731e-13 9.519e+13 <2e-16 ***
## V31127 2.700e+01 1.974e-13 1.368e+14 <2e-16 ***
## V31128 2.800e+01 2.752e-13 1.018e+14 <2e-16 ***
## V3113 3.000e+00 2.794e-14 1.074e+14 <2e-16 ***
## V31130 3.000e+01 2.725e-13 1.101e+14 <2e-16 ***
## V31131 3.100e+01 1.974e-13 1.571e+14 <2e-16 ***
## V31132 3.200e+01 2.747e-13 1.165e+14 <2e-16 ***
## V31135 3.500e+01 1.583e-13 2.210e+14 <2e-16 ***
## V3114 4.000e+00 2.963e-14 1.350e+14 <2e-16 ***
## V31141 4.100e+01 2.734e-13 1.499e+14 <2e-16 ***
## V3115 5.000e+00 3.322e-14 1.505e+14 <2e-16 ***
## V3116 6.000e+00 5.337e-14 1.124e+14 <2e-16 ***
## V3117 7.000e+00 5.958e-14 1.175e+14 <2e-16 ***
## V3118 8.000e+00 6.964e-14 1.149e+14 <2e-16 ***
## V3119 9.000e+00 1.231e-13 7.313e+13 <2e-16 ***
## V312 1.000e+00 3.931e-15 2.544e+14 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.723e-13 on 1685 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 1.248e+29 on 28 and 1685 DF, p-value: < 2.2e-16
#Ecuación
modelo$coefficients
## (Intercept) V3111 V31110 V31111 V31112 V31114
## 5.40624e-15 1.00000e+00 1.00000e+01 1.10000e+01 1.20000e+01 1.40000e+01
## V31115 V31116 V31118 V3112 V31122 V31123
## 1.50000e+01 1.60000e+01 1.80000e+01 2.00000e+00 2.20000e+01 2.30000e+01
## V311244 V31126 V31127 V31128 V3113 V31130
## 2.44000e+02 2.60000e+01 2.70000e+01 2.80000e+01 3.00000e+00 3.00000e+01
## V31131 V31132 V31135 V3114 V31141 V3115
## 3.10000e+01 3.20000e+01 3.50000e+01 4.00000e+00 4.10000e+01 5.00000e+00
## V3116 V3117 V3118 V3119 V312
## 6.00000e+00 7.00000e+00 8.00000e+00 9.00000e+00 1.00000e+00
#FUERZA DE RELACIÓN REGRESIÓN SIMPLE 2
data2$V51 <- as.numeric(as.character(data2$V51))
data2$V313 <- as.numeric(as.character(data2$V313))
cor.test(data2$V51, data2$V313)
##
## Pearson's product-moment correlation
##
## data: data2$V51 and data2$V313
## t = 7.7537, df = 1712, p-value = 1.521e-14
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.1380448 0.2295344
## sample estimates:
## cor
## 0.1841885
#Realizamos la Regresión Lineal 2
modelo2 <- lm(V51 ~ V49 + V313, data = data2)
summary(modelo2)
##
## Call:
## lm(formula = V51 ~ V49 + V313, data = data2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -312900970 -11996855 -10594194 -4061195 471860142
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.126e+07 1.131e+06 9.957 < 2e-16 ***
## V49 8.034e-01 3.119e-03 257.627 < 2e-16 ***
## V313 5.140e+05 8.787e+04 5.850 5.89e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 44130000 on 1711 degrees of freedom
## (5085 observations deleted due to missingness)
## Multiple R-squared: 0.9757, Adjusted R-squared: 0.9757
## F-statistic: 3.438e+04 on 2 and 1711 DF, p-value: < 2.2e-16
#Ecuación
modelo2$coefficients
## (Intercept) V49 V313
## 1.126497e+07 8.034237e-01 5.140258e+05
Vemos que, según nuestra prueba de hipótesis, si existe una relación lineal, pues nuestro p-value es menor a 0.05 en ambas regresiones, así que rechazamos la hipótesis nula. Sin embargo, en los coeficientes, obtenemos lo siguiente:
En la Regresión lineal 1, encontramos un coeficiente igual a 0.6509213, por lo que, al ser de signo positiva, es directa. Es decir, al aumentar el número de personal ocupado promedio mujer que participó en actividades científicas, tecnológicas y de innovación en su empresa, aumenta el personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020, obteniendo una fuerza de correlación alta.
En la Regresión lineal 2, encontramos un coeficiente igual a 0.1841885, por lo que, al ser de signo positiva, es directa. Es decir, al aumentar el número de personal ocupado promedio que participó en actividades científicas, tecnológicas y de innovación en su empresa durante 2020, aumenta los ingresos/ventas nacionales totales del año 2020 de las empresas en colombia (en miles de pesos corrientes).Pero, se tiene que existe una fuerza de esta asociación entre estos 2 items es baja, es decir que, su relación carece de gran relevancia.
¿Ambos modelos de regresión lineal múltiple son válidos en su? conjunto?
Regresión 1
En este caso el p-value, al ser menor que 0.05 nos indica que podemos rechazar la hipótesis nula, es decir, que la hipótesis que indica que el modelo no es válido, por lo que el modelo funciona.
Para medir la capacidad predictiva de nuestro modelo tenemos, el R cuadrado ajustado (Adjusted R-squared), el cual, al ser de 1, nos indica de que el modelo explica el 100% de la variabilidad de nuestra variable de respuesta (y), la producción total.
Regresión 1
En este caso el p-value, al ser menor que 0.05 nos indica que podemos rechazar la hipótesis nula, es decir, que la hipótesis que indica que el modelo no es válido, por lo que el modelo funciona. Asimismo, vemos el cambio en su valor con respecto a la regresión lineal múltiple.
Para medir la capacidad predictiva de nuestro modelo tenemos, el R cuadrado ajustado (Adjusted R-squared), el cual, al ser de 0.9757, nos indica de que el modelo explica el 98% de la variabilidad de nuestra variable de respuesta (y), la producción total.
A continuación se observan dos diagramas de dispersión correspondientes a las 2 regresiones lineales que establecen la relación lineal entre una variable dependiente y otra independiente.
Gráficas de dispersión