Informe de Aplicación de Regresión Lineal Multiple
MAESTRÍA EN CIENCIA DE DATOS UNIVERSIDAD JAVERIANA DE CALI
MÉTODOS ESTADÍSTICOS PARA LA TOMA DE DECISIONES
Carolina Galindres Bernal, Adrian Rodriguez Amaya
APLICACIÓN DE REGRESIÓN LINEAL MÚLTIPLE CASO BIOMASA
Para el presente informe se utilizarán los datos de la base de datos de biomasa, la cuál contiene los datos de pH, salinidad, zinc y potasio. La base de datos es la siguiente:
summary(data)
## Biomasa pH Salinidad Zinc
## Min. : 369.8 Min. :3.200 Min. :24.00 Min. : 0.2105
## 1st Qu.: 654.8 1st Qu.:3.450 1st Qu.:27.00 1st Qu.:13.9852
## Median : 991.8 Median :4.450 Median :30.00 Median :19.2420
## Mean :1082.2 Mean :4.609 Mean :30.27 Mean :17.8308
## 3rd Qu.:1346.9 3rd Qu.:5.350 3rd Qu.:33.00 3rd Qu.:22.6758
## Max. :2337.3 Max. :7.450 Max. :38.00 Max. :31.2865
## Potasio
## Min. : 350.7
## 1st Qu.: 527.0
## Median : 773.3
## Mean : 797.4
## 3rd Qu.: 954.1
## Max. :1441.7
Iniciaremos el análisis de esta base de datos calculando la matríz de correlación entre las diferentes variables involucradas en este caso de estudio. Así:
cor(data)
## Biomasa pH Salinidad Zinc Potasio
## Biomasa 1.00000000 0.92810235 -0.06657756 -0.78146249 -0.07319518
## pH 0.92810235 1.00000000 -0.04458851 -0.72046995 0.03236212
## Salinidad -0.06657756 -0.04458851 1.00000000 -0.42663388 -0.01963288
## Zinc -0.78146249 -0.72046995 -0.42663388 1.00000000 0.07877268
## Potasio -0.07319518 0.03236212 -0.01963288 0.07877268 1.00000000
De acuerdo con la tabla de correlación, podemos observar que la variable ‘Zinc’ presenta problemas de colinealidad con las demás variables. Por tanto, se debe evaluar la pertinencia de esta variable para ser incluida dentro del modelo. Más adelante se realizará esta evaluacíon.
Ahora, realizaremos el cálculo del modelo de regresión múltiple con la información anteriormente consignada.
mod = lm(Biomasa ~., data = data)
summary(mod)
##
## Call:
## lm(formula = Biomasa ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
A partir del modelo calculado podemos evidenciar que las variables pH, Salinidad y Zinc tienen alta significancia dentro del modelo; mientras que la variable Potasio no. El modelo calculado nos arroja un ajuste de 0.9154, lo cuál nos indica un alto porcentaje de representación con respecto a la estimación de la Biomasa.
La ecuación del modelo de regresión múltiple se presenta de la siguiente forma:
\[ Biomasa = 1492.8076 + 262.8829*pH - 33.4997*Salinidad - 28.9727*Zinc - 0.1150*Potasio \]
Ahora realizaremos el cálculo de inflación de varianza VIF, con la finalidad de establecer si existe multicolinealidad entre la variable Zinc y alguna de las otras variables.
vif(mod)
## pH Salinidad Zinc Potasio
## 3.121393 1.805123 3.827788 1.035100
Con base al Factor de Inflación de Varianza VIF, concluimos que ninguna de las variables presenta problemas de colinealidad y todas ellas pueden incluirse dentro del modelo.
Finalmente podemos concluir que para aumentar la biomasa un incremento en el pH del material es clave; también reducir los valores de Salinidad, Zinc y Potasio, siendo la Salinidad y el Zinc las que mayormente impactarían la biomasa.