REGRESIÓN MÚLTIPLE Y= a+ bX1+ bX2 SIGNIFICANCIA DEL MODELO: Cuando al menos una es distinta de 0. H0: todas son 0 –>tons el modelo no es significante H1: al menos 1 es 0 –> tons el modelo es algo significnte
Y:variales respuesta/dependiente X: variable regresora/independiente/predictora
PRUEBAS INDIVIDUALES H0: Bi=0 (la variable X no influye en Y) H1: Bi =/= 0 (la variable Xi sí influye en Y)
DETERMINACIÓN DEL B MÁS IMPORTANTE B estandarizado= Bi*Sx/Sy
EL B estandarizado mayor será el más importante.
library(rio)
data= import ("CarPrice.csv")
attach(data)
correlaciones<-data.frame(cor(price,horsepower),cor(price,citympg),cor(price,carlength),cor(price,carwidth))
correlaciones
## cor.price..horsepower. cor.price..citympg. cor.price..carlength.
## 1 0.8081388 -0.6857513 0.68292
## cor.price..carwidth.
## 1 0.7593253
Con data frame. te dan las correlaciones de todos al mismo tiempo.
TODOS LOS GRÁFICOS DE DISPERSIÓN Al mismo tiempo –> y solo ves la primera fila.
pairs(price ~ citympg+horsepower+carlength+carwidth)
B) OBTENER EL MODELO DE REGRESIÓN DE LA VARIABLE:
model1<-lm(price~citympg+horsepower+carlength+carwidth)
summary(model1)
##
## Call:
## lm(formula = price ~ citympg + horsepower + carlength + carwidth)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10708.5 -2398.5 -149.7 1438.1 15256.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -93945.33 12642.79 -7.431 3.08e-12 ***
## citympg 131.85 80.09 1.646 0.1013
## horsepower 123.84 12.56 9.862 < 2e-16 ***
## carlength 110.50 45.09 2.451 0.0151 *
## carwidth 1088.96 260.86 4.175 4.45e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3953 on 200 degrees of freedom
## Multiple R-squared: 0.7599, Adjusted R-squared: 0.7551
## F-statistic: 158.3 on 4 and 200 DF, p-value: < 2.2e-16
CON SUMMARY EN EL MÚTLIPLE SALE EL MODELO de todo. Y= -93945.33 +131.85X1+ 123.84X2+ 110.50X3 +1088.96X4
131.85 (X1)–> Es el aumento en el precio del auto cuando caallos de fuerzas aumento en 1 kilobatius y las demás variables permanecen constantes.
110.5 (X3) = es el aumento del preico del aumento cuando la longitus del aumento aumenta en 1 … y las demás variales permanecen constantes.
C) DEMOSTRAR LA SIGNIFICANCIA DEL MODELO:
H0= todas 0 H1= al menos 1 es diferente de 0
Con el summary anterior se mira el p value… p-value: < 2.2e-16–> menor, se descarta y ya. al emnos una es disntinta de 0.
EL r2 es con el r ajustado –> Adjusted R-squared: 0.7551 r%: 75.51%
H0: x valor 0 H1: x diferente de 0
P valor ALFAS (rechazo H0–> menor a ella) 0.000 0.001 0.010 0.050 . 0.100
EL alfa de carlength es significativa pero al 5%.
El alfa fijo es 0.05. revisar la última fila)
X1: no influye, es mayor a 0.05 X2: sí influye, es menor a 0.05 X3: sí influye X4: Sí influye
Se retirararía el X1. porque no influye.
model2<-lm(price~horsepower+carlength+carwidth)
summary(model2)
##
## Call:
## lm(formula = price ~ horsepower + carlength + carwidth)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9449.6 -2608.1 -86.6 1346.7 15621.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -87369.73 12046.14 -7.253 8.65e-12 ***
## horsepower 109.64 9.16 11.969 < 2e-16 ***
## carlength 81.48 41.68 1.955 0.052 .
## carwidth 1138.71 260.20 4.376 1.94e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3970 on 201 degrees of freedom
## Multiple R-squared: 0.7567, Adjusted R-squared: 0.753
## F-statistic: 208.4 on 3 and 201 DF, p-value: < 2.2e-16
Adjusted R-squared: 0.753 –> r2 –> 75.3 %
X1: no influye, es mayor a 0.05 X2: sí influye, es menor a 0.05 X3: no influye X4: Sí influye
QUITAR X1 y X3
model3<-lm(price~horsepower+carwidth)
summary(model3)
##
## Call:
## lm(formula = price ~ horsepower + carwidth)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11898.5 -2463.2 -352.8 1375.1 16413.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -98767.300 10614.621 -9.305 <2e-16 ***
## horsepower 110.225 9.219 11.956 <2e-16 ***
## carwidth 1525.884 169.939 8.979 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3998 on 202 degrees of freedom
## Multiple R-squared: 0.7521, Adjusted R-squared: 0.7496
## F-statistic: 306.3 on 2 and 202 DF, p-value: < 2.2e-16
CALUCULE EL MODELO PASIMONIOSO: Mejor modelo con la menor cantidad de variables.
r2 ajustado: 0.7496 ………………………………………………………..