TALLER - Regresión lineal
La base de datos ”taller s16 regresion” presenta información de contaminación atmosférica en 41 ciudades para el período 2009-2011. La variable de interés es Y = contenido de SO2 en el aire en microgramos por metro cúbico
library(readxl)
taller_s16_regresion <- read_excel("taller s16 regresion.xlsx")
## New names:
## • `` -> `...8`
## • `` -> `...9`
## • `` -> `...10`
## • `` -> `...11`
View(taller_s16_regresion)
Datos <- taller_s16_regresion
Se desea estudiar su relación con alguna de las variables explicativas: fabr número de fábricas con más de 20 empleados pob número de habitantes, en miles vel Velocidad media del viento al año en kilómetros por hora dias número medio de días con lluvia al año temc temperatura media anual en grados centígrados preci precipitación media anual en litros por pulgada
El objetivo del estudio es encontrar un modelo de regresión simple que explique adecuadamente el comportamiento de la variable Y en función de la explicativa.
# x - Variable independiente explicativa = Fabr
# Y - Variable dependiente explicada = SO2
#Correlación:
cor(Datos)
## SO2 fabr pob vel dias temc
## SO2 1.00000000 0.6447687 0.49377958 0.09469048 0.36956363 -0.43360021
## fabr 0.64476873 1.0000000 0.95526935 0.23794683 0.13182930 -0.19004220
## pob 0.49377958 0.9552693 1.00000000 0.21264376 0.04208319 -0.06267817
## vel 0.09469048 0.2379468 0.21264376 1.00000000 0.16410561 -0.34973969
## dias 0.36956363 0.1318293 0.04208319 0.16410561 1.00000000 -0.43024211
## temc -0.43360021 -0.1900422 -0.06267817 -0.34973969 -0.43024211 1.00000000
## preci 0.05429433 -0.0324169 -0.02611875 -0.01299435 0.49609671 0.38625339
## ...8 NA NA NA NA NA NA
## ...9 NA NA NA NA NA NA
## ...10 NA NA NA NA NA NA
## ...11 NA NA NA NA NA NA
## preci ...8 ...9 ...10 ...11
## SO2 0.05429433 NA NA NA NA
## fabr -0.03241690 NA NA NA NA
## pob -0.02611875 NA NA NA NA
## vel -0.01299435 NA NA NA NA
## dias 0.49609671 NA NA NA NA
## temc 0.38625339 NA NA NA NA
## preci 1.00000000 NA NA NA NA
## ...8 NA 1 NA NA NA
## ...9 NA NA 1 NA NA
## ...10 NA NA NA 1 NA
## ...11 NA NA NA NA 1
#Modelo población = beta_0 + beta_1 * fabr + u
2.Estime la regresión y escriba la ecuación de regresión ajustada
Regresión <- lm(SO2 ~ fabr , data=taller_s16_regresion)
Regresión
##
## Call:
## lm(formula = SO2 ~ fabr, data = taller_s16_regresion)
##
## Coefficients:
## (Intercept) fabr
## 17.61057 0.02686
resumen <- summary(Regresión)
resumen
##
## Call:
## lm(formula = SO2 ~ fabr, data = taller_s16_regresion)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.976 -12.968 -3.495 6.710 67.177
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.610574 3.691587 4.770 2.58e-05 ***
## fabr 0.026859 0.005099 5.268 5.36e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.17 on 39 degrees of freedom
## Multiple R-squared: 0.4157, Adjusted R-squared: 0.4007
## F-statistic: 27.75 on 1 and 39 DF, p-value: 5.363e-06
#REGRESIÓN AJUSTADA
#B0^ <- 17.61057
#B1^ <- 0.02686
#SO2^ = 17.61057 + 0.02686 * fabr
#R^2 = 0.4157
# Fraccion de la variación total del SO2 que es explicado por
# la cantidad de fabricas con mas de 20 empleados.
##Significancia individual de B1 = 5.36e-06 = 0.00000536
#H0:B1=0
#H1:B1 /=/ 0
#Valor p < alfa
#0.00000536 < 0.05 la hipotesis alterna se cumple, y se rechaza
#la nula, por lo tanto el b de fabricas es significativo
#La variable fabrica es util para explicar la variable SO.
#Interpretación de beta_1^
#Por cada fabrica adicional con más de 20 empleados
#el contendio de SO2 aumenta un 0.02686 #microgramos por metro cúbico en el aire.
#SO2(Original) = 17.61 + 0.026859 * fabr
#SO2(Nuevo)= 17.61 + 0.026859 * (fabr + 250)
#SO2(Nuevo)= 17.61 + 0.026859 * fabr + 0.026859 * 250
#S02(Nuevo) - SO2(Original) = 0.026859 * 250
Variación <- 0.026859*250
Variación
## [1] 6.71475