Base de datos MTCARS
#mtcars
mtcars$lnmpg<-log(mtcars$mpg)
Regresión incluyendo todas las variables.
reg<-lm(formula=lnmpg~cyl+disp+hp+drat+wt+qsec+vs+am+gear+carb, data=mtcars)
summary(reg)
##
## Call:
## lm(formula = lnmpg ~ cyl + disp + hp + drat + wt + qsec + vs +
## am + gear + carb, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.14569 -0.07886 -0.01752 0.06524 0.25130
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.776e+00 8.492e-01 3.268 0.00367 **
## cyl 7.657e-03 4.741e-02 0.161 0.87326
## disp 4.989e-05 8.102e-04 0.062 0.95149
## hp -8.964e-04 9.877e-04 -0.908 0.37439
## drat 2.220e-02 7.420e-02 0.299 0.76772
## wt -1.723e-01 8.595e-02 -2.005 0.05804 .
## qsec 3.077e-02 3.316e-02 0.928 0.36401
## vs -2.874e-03 9.548e-02 -0.030 0.97627
## am 4.738e-02 9.331e-02 0.508 0.61693
## gear 5.925e-02 6.775e-02 0.875 0.39170
## carb -2.012e-02 3.760e-02 -0.535 0.59826
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1202 on 21 degrees of freedom
## Multiple R-squared: 0.8895, Adjusted R-squared: 0.8369
## F-statistic: 16.91 on 10 and 21 DF, p-value: 6.89e-08
Interpretacion de coeficientes
# Variables Binarias en Regresiones Semi-logaritmicas
# ln(Y) = Bo + B1X1 + B2X2 + ... + BkXk + u
# En este caso, si "X1" es una variable continua, b1 se interpreta como el cambio porcentual en "Y" debido a un cambio de una unidad en "X".
# En caso que "X1" es una variable dummy entonces, si "X1 = 1, "Y" aumenta en 100(e^b1 - 1) porciento.
# Como ejemplo usemos el archivo "mtcars" y calcular la regresion:
# ln(mpg) = b0 + b1(wt) + b2(hp) + b3 (am)
# Creamos una nueva variable para el ln(mpg)
- Solamente dos variables son “dummy variables”, las demas son variables continuas. La interpretacion de estas cambiara. Y la del intercepto igual ya que ln(Y)=2.776, se despeja y e^ln(y) = e^2.776, Y=16.05467.
- Las variables continuas se interpretan como un cambio porcentual por cada unidad que cambia la variable Xj.
| Intercepto |
2.776 |
Y=16.05467 si todas las demas variables son igual a 0, esto se debe por la explicacion anterior. Las millas por galon incrementaran 16.05467 si todas las demas variables tienen un coeficiente igual a 0. |
| cyl |
0.007657 |
Si el numero de cilindros de un carro cambia en una unidad las millas por galon incrementaran 0.7657% (0.007657x100). |
| disp |
0.00004989 |
Si el desplazamiento de un carro que es el volumen de los cilindros del motor e indica el poder y el tamano (pulgadas cubicas) cambia en una unidad las millas por galon incrementaran 0.004989% (0.00004989x100). |
| hp |
-0.0008964 |
Si los caballos de fuerza de un carro cambian en una unidad las millas por galon disminuiran 0.08964% (0.000896x100) |
| drat |
0.0222 |
Si la relacion del eje trasero de un carro cambian en una unidad las millas por galon incrementaran 2.22% (0.0222x100) |
| wt |
-0.1723 |
Si el peso (lb/1000) de un carro cambian en una unidad las millas por galon disminuiran 17.23% (0.1723x100) |
| qsec |
0.03077 |
Si el tiempo que un carro recorre 1/4 de milla cambian en una unidad las millas por galon aumentaran 3.077% (0.03077x100) |
| vs |
-0.002874 |
Si el carro tienen un motor recto (straight engine, X=1) las millas por galon van a disminuir 0.2878% (100(e^0.002874 - 1)) |
| am |
0.04738 |
Si el carro es mecanico (X=1) las millas por galon van a incrementar 4.85% (100(e^0.04738 - 1)) |
| gear |
0.05925 |
Si el numero de forward gears cambia en una unidad las millas por galon aumentaran 5.925% (0.05925x100) |
| carb |
-0.02012 |
Si el numero de carburadores cambia en una unidad las millas por galon disminuiran 2.012% (0.02012x100) |
En base a que tome la decision de eliminar variables…
- Segun el p-value de cada coeficiente, viendo los mas grandes ya que tengo una probabilidad mas alta de estar equivocada en mi estimacion si las dejo.
- Nivel de significancia de cada coeficiente.
- Valores de coeficientes muy pequenos, casi 0 quieren decir que no tienen mayor efecto en la regresion y que no son significativos.
Modificacion 1
- Eliminar coeficientes con el p-value mas altos.
- Variables disp (0.95), vs (0.97627), cyl (0.87326) y drat (0.76772)
reg<-lm(formula=lnmpg~hp+wt+qsec+am+gear+carb, data=mtcars)
summary(reg)
##
## Call:
## lm(formula = lnmpg ~ hp + wt + qsec + am + gear + carb, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.14602 -0.08488 -0.01783 0.06074 0.25193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.9685123 0.4414887 6.724 4.79e-07 ***
## hp -0.0008414 0.0006971 -1.207 0.23871
## wt -0.1677198 0.0457942 -3.662 0.00117 **
## qsec 0.0266885 0.0206020 1.295 0.20701
## am 0.0489501 0.0795307 0.615 0.54380
## gear 0.0575106 0.0558767 1.029 0.31322
## carb -0.0200136 0.0250877 -0.798 0.43253
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1105 on 25 degrees of freedom
## Multiple R-squared: 0.8889, Adjusted R-squared: 0.8623
## F-statistic: 33.35 on 6 and 25 DF, p-value: 9.258e-11
Modificacion 2
- Eliminar coeficientes con el p-value mas altos.
- Variables am (0.54380) y carb (0.43253).
reg<-lm(formula=lnmpg~hp+wt+qsec+gear, data=mtcars)
summary(reg)
##
## Call:
## lm(formula = lnmpg ~ hp + wt + qsec + gear, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.14211 -0.06739 -0.03157 0.06131 0.27355
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.0823656 0.4171390 7.389 6.00e-08 ***
## hp -0.0010796 0.0006434 -1.678 0.105
## wt -0.1915525 0.0387572 -4.942 3.56e-05 ***
## qsec 0.0260272 0.0185918 1.400 0.173
## gear 0.0502321 0.0360899 1.392 0.175
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1086 on 27 degrees of freedom
## Multiple R-squared: 0.8842, Adjusted R-squared: 0.8671
## F-statistic: 51.56 on 4 and 27 DF, p-value: 2.952e-12
Modificacion 3
- Eliminar coeficientes con el p-value mas altos.
- Variables qsec (0.173) y gear (0.175).
reg<-lm(formula=lnmpg~hp+wt, data=mtcars)
summary(reg)
##
## Call:
## lm(formula = lnmpg ~ hp + wt, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.18744 -0.07540 -0.02440 0.06244 0.28562
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.8291030 0.0686807 55.752 < 2e-16 ***
## hp -0.0015435 0.0003879 -3.979 0.000423 ***
## wt -0.2005368 0.0271810 -7.378 3.96e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1114 on 29 degrees of freedom
## Multiple R-squared: 0.8691, Adjusted R-squared: 0.86
## F-statistic: 96.23 on 2 and 29 DF, p-value: 1.577e-13
- Los coeficientes estimados son significativos.
- Las variables que se deben dejar y que explican las millas por galon son los caballos de fuerza y el peso.
Interpretacion
- Si el peso incrementa en una unidad (lb/100), las millas por galon disminuiran 0.2.
- Si los caballos de fuerza incrementan en una unidad, las millas por galon disminuiran 0.001.
- Se logro obtener una R^2 = 86.91% y una R^2 ajustada = 86%.