TALLER - Regresión lineal

La base de datos ”taller s16 regresion” presenta información de contaminación atmosférica en 41 ciudades para el período 2009-2011. La variable de interés es Y = contenido de SO2 en el aire en microgramos por metro cúbico

library(readxl)
taller_s16_regresion <- read_excel("taller s16 regresion.xlsx")
## New names:
## • `` -> `...8`
## • `` -> `...9`
## • `` -> `...10`
## • `` -> `...11`
View(taller_s16_regresion)
Datos <- taller_s16_regresion

Se desea estudiar su relación con alguna de las variables explicativas: fabr número de fábricas con más de 20 empleados pob número de habitantes, en miles vel Velocidad media del viento al año en kilómetros por hora dias número medio de días con lluvia al año temc temperatura media anual en grados centígrados preci precipitación media anual en litros por pulgada

El objetivo del estudio es encontrar un modelo de regresión simple que explique adecuadamente el comportamiento de la variable Y en función de la explicativa.

# x - Variable independiente explicativa = Fabr
# Y - Variable dependiente explicada = SO2
  1. Plantee el modelo de población
#Correlación:
cor(Datos)
##               SO2       fabr         pob         vel        dias        temc
## SO2    1.00000000  0.6447687  0.49377958  0.09469048  0.36956363 -0.43360021
## fabr   0.64476873  1.0000000  0.95526935  0.23794683  0.13182930 -0.19004220
## pob    0.49377958  0.9552693  1.00000000  0.21264376  0.04208319 -0.06267817
## vel    0.09469048  0.2379468  0.21264376  1.00000000  0.16410561 -0.34973969
## dias   0.36956363  0.1318293  0.04208319  0.16410561  1.00000000 -0.43024211
## temc  -0.43360021 -0.1900422 -0.06267817 -0.34973969 -0.43024211  1.00000000
## preci  0.05429433 -0.0324169 -0.02611875 -0.01299435  0.49609671  0.38625339
## ...8           NA         NA          NA          NA          NA          NA
## ...9           NA         NA          NA          NA          NA          NA
## ...10          NA         NA          NA          NA          NA          NA
## ...11          NA         NA          NA          NA          NA          NA
##             preci ...8 ...9 ...10 ...11
## SO2    0.05429433   NA   NA    NA    NA
## fabr  -0.03241690   NA   NA    NA    NA
## pob   -0.02611875   NA   NA    NA    NA
## vel   -0.01299435   NA   NA    NA    NA
## dias   0.49609671   NA   NA    NA    NA
## temc   0.38625339   NA   NA    NA    NA
## preci  1.00000000   NA   NA    NA    NA
## ...8           NA    1   NA    NA    NA
## ...9           NA   NA    1    NA    NA
## ...10          NA   NA   NA     1    NA
## ...11          NA   NA   NA    NA     1
#Modelo población = beta_0 + beta_1 * fabr + u

2.Estime la regresión y escriba la ecuación de regresión ajustada

Regresión <- lm(SO2 ~ fabr , data=taller_s16_regresion)
Regresión
## 
## Call:
## lm(formula = SO2 ~ fabr, data = taller_s16_regresion)
## 
## Coefficients:
## (Intercept)         fabr  
##    17.61057      0.02686
resumen <- summary(Regresión)
resumen
## 
## Call:
## lm(formula = SO2 ~ fabr, data = taller_s16_regresion)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -26.976 -12.968  -3.495   6.710  67.177 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 17.610574   3.691587   4.770 2.58e-05 ***
## fabr         0.026859   0.005099   5.268 5.36e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.17 on 39 degrees of freedom
## Multiple R-squared:  0.4157, Adjusted R-squared:  0.4007 
## F-statistic: 27.75 on 1 and 39 DF,  p-value: 5.363e-06
#REGRESIÓN AJUSTADA
#B0^ <-   17.61057 
#B1^ <-   0.02686 

#SO2^ = 17.61057 + 0.02686  * fabr
  1. Interprete el R2
#R^2 = 0.4157 
# Fraccion de la variación total  del SO2 que es explicado por 
# la cantidad de fabricas con mas de 20 empleados. 
  1. Comente acerca de la significancia individual de 𝛽1.
##Significancia individual de B1 = 5.36e-06 = 0.00000536

#H0:B1=0
#H1:B1 /=/ 0

#Valor p < alfa
#0.00000536 < 0.05 la hipotesis alterna se cumple, y se rechaza 
#la nula, por lo tanto el b de fabricas es significativo 
#La variable fabrica es util para explicar la variable SO.
  1. Interprete el valor obtenido como estimación de 𝛽1
#Interpretación de beta_1^
#Por cada fabrica adicional con más de 20 empleados 
#el contendio de SO2  aumenta un 0.02686                            #microgramos por metro cúbico en el aire.
  1. Indique cuál es la variación en el contenido de SO2 en el aire si el número de fábrica con más de 20 empleados aumenta en 250
#SO2(Original) = 17.61 + 0.026859 * fabr 
#SO2(Nuevo)= 17.61 + 0.026859 * (fabr + 250)
#SO2(Nuevo)= 17.61 + 0.026859 * fabr + 0.026859 * 250
#S02(Nuevo) - SO2(Original) = 0.026859 * 250
Variación <- 0.026859*250
Variación
## [1] 6.71475