La regresion lineal multiple es un modelo estadistico que busca describir la relacion entre una variable dependiente Y y dos o mas variables independietes X1, X2, …,Xn. Se utiliza para entender como las variables independientes influyen en la variable dependiente o para predecir valores de Y con base en los valores de X.
Un ejemplo que podemos hacer sobre esto con una base de datos seria lo sigueinte. Procedemos a cargar nuestra base de datos
## Warning: package 'haven' was built under R version 4.4.2
## # A tibble: 6 × 46
## region var1 var2 var3 var4 var5 var6 var7 var8 var9 var10 var11
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Amazon… 2833. 6704. 11589. 5924. 1112. 2.04 345 15.5 79.0 15.2 82.0
## 2 Áncash 17632. 15350. 27945. 3529. 1430. -0.713 462 27.7 95.7 8.55 93.9
## 3 Apurím… 2628. 5728. 9083. 5872. 898. 0.0614 397 18.0 93.1 13.3 92.7
## 4 Arequi… 23656. 18378. 34076. 4026. 1572. -1.70 1115 44.1 97.2 9.6 93.4
## 5 Ayacuc… 5332. 7742. 14342. 4881. 927. 1.23 402 20.0 89.6 14.7 91.6
## 6 Cajama… 10893. 7121. 12781. 3388. 902. -2.90 349 19.5 86.6 8.54 79.4
## # ℹ 34 more variables: var12 <dbl>, var13 <dbl>, var14 <dbl>, var15 <dbl>,
## # var16 <dbl>, var17 <dbl>, var18 <dbl>, var19 <dbl>, var20 <dbl>,
## # var21 <dbl>, var22 <dbl>, var23 <dbl>, var24 <dbl>, var25 <dbl>,
## # var26 <dbl>, var27 <dbl>, var28 <dbl>, var29 <dbl>, var30 <dbl>,
## # var31 <dbl>, var32 <dbl>, var33 <dbl>, var34 <dbl>, var35 <dbl>,
## # var36 <dbl>, var37 <dbl>, var38 <dbl>, var39 <dbl>, var40 <dbl>,
## # var41 <dbl>, var42 <dbl>, var43 <dbl>, var44 <dbl>, var45 <dbl>
## [1] "ya hemos cargado la base de datos y tenemos una vista previa de ella, como la base es muy grande no se ve de la mejor manera, lo siguiente a hacer sera escoger una variables la cual mirarremos si es dependinte de otras dos variables las cuales seran independientes."
## num [1:24] 6704 15350 5728 18378 7742 ...
## - attr(*, "label")= chr "Producto Bruto Interno real per cápita"
## - attr(*, "format.spss")= chr "F18.2"
## - attr(*, "display_width")= int 14
## num [1:24] 11589 27945 9083 34076 14342 ...
## - attr(*, "label")= chr "Stock de capital por trabajador"
## - attr(*, "format.spss")= chr "F19.2"
## - attr(*, "display_width")= int 13
## num [1:24] 5924 3529 5872 4026 4881 ...
## - attr(*, "label")= chr "Presupuesto público per cápita"
## - attr(*, "format.spss")= chr "F18.2"
## - attr(*, "display_width")= int 14
## [1] "en este caso escogimos la variable 2 (la que es la dependiente) = Producto Bruto Interno (PBI) real per cápita\nvariable 3 = stock de capital por trabajador\nvariable 4 = presupuesto publico percapita"
## [1] "primeros realizaremos un test para verificar que halla una relacion on una de las variables independientes\n"
##
## Pearson's product-moment correlation
##
## data: var2 and var3
## t = 53.894, df = 22, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9911642 0.9983974
## sample estimates:
## cor
## 0.9962342
## [1] "El valor de la correlación es 0.9962342, lo que indica una relación muy fuerte y positiva entre las dos variables. Esto significa que a medida que aumenta el stock de capital por trabajador, el PBI real per cápita también tiende a aumentar, y viceversa.\nValor p (p-value):\n\nEl valor p es menor a 2.2e-16, lo que es significativamente menor al umbral común de 0.05. Esto indica que la correlación observada es estadísticamente significativa y que hay una alta probabilidad de que esta relación no sea debida al azar.\nDicho eso haremos la segunda prueba con comprobaremos la relacion de las 3 variables"
##
## Call:
## lm(formula = var2 ~ var3 + var4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1647.07 -326.08 -3.55 363.59 1193.45
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.005e+03 5.312e+02 -1.892 0.0723 .
## var3 5.397e-01 1.092e-02 49.413 <2e-16 ***
## var4 2.686e-01 1.317e-01 2.039 0.0542 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 753.8 on 21 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9931
## F-statistic: 1663 on 2 and 21 DF, p-value: < 2.2e-16
## [1] "podemos observar que el p-value es menor a 2.2e-16 lo que nos ayuda a rechazar la hipotesis nula y nos indicaa que el modelo si es valido. Con el Adjusted R-squared nos indica que la variabilidad de nuestro modelo es predicha con un 99% teniendo encuenta las dos variables var 3 y var 4"
## (Intercept) var3 var4
## -1005.3290540 0.5396619 0.2685883
## [1] "lo cual nos da la formula\n Producto Bruto Interno (PBI) real per cápita =-1005.3290540 + 0.5396619 (stock de capital por trabajador) + 0.2685883 (presupuesto publico percapita)"
## [1] "con esto podemos concluir que si exite una correlacion y una formula con la cual podemoss saber a futuro que valores obtendra la variablee dependiente"