REGRESIÓN MÚLTIPLE Y= a+ bX1+ bX2 SIGNIFICANCIA DEL MODELO: Cuando al menos una es distinta de 0. H0: todas son 0 –>tons el modelo no es significante H1: al menos 1 es 0 –> tons el modelo es algo significnte

Y:variales respuesta/dependiente X: variable regresora/independiente/predictora

PRUEBAS INDIVIDUALES H0: Bi=0 (la variable X no influye en Y) H1: Bi =/= 0 (la variable Xi sí influye en Y)

DETERMINACIÓN DEL B MÁS IMPORTANTE B estandarizado= Bi*Sx/Sy

EL B estandarizado mayor será el más importante.

library(rio)
data= import ("CarPrice.csv")
attach(data)
correlaciones<-data.frame(cor(price,horsepower),cor(price,citympg),cor(price,carlength),cor(price,carwidth))
correlaciones
##   cor.price..horsepower. cor.price..citympg. cor.price..carlength.
## 1              0.8081388          -0.6857513               0.68292
##   cor.price..carwidth.
## 1            0.7593253

Con data frame. te dan las correlaciones de todos al mismo tiempo.

TODOS LOS GRÁFICOS DE DISPERSIÓN Al mismo tiempo –> y solo ves la primera fila.

pairs(price ~ citympg+horsepower+carlength+carwidth)

B) OBTENER EL MODELO DE REGRESIÓN DE LA VARIABLE:

model1<-lm(price~citympg+horsepower+carlength+carwidth)
summary(model1)
## 
## Call:
## lm(formula = price ~ citympg + horsepower + carlength + carwidth)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10708.5  -2398.5   -149.7   1438.1  15256.8 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -93945.33   12642.79  -7.431 3.08e-12 ***
## citympg        131.85      80.09   1.646   0.1013    
## horsepower     123.84      12.56   9.862  < 2e-16 ***
## carlength      110.50      45.09   2.451   0.0151 *  
## carwidth      1088.96     260.86   4.175 4.45e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3953 on 200 degrees of freedom
## Multiple R-squared:  0.7599, Adjusted R-squared:  0.7551 
## F-statistic: 158.3 on 4 and 200 DF,  p-value: < 2.2e-16

CON SUMMARY EN EL MÚTLIPLE SALE EL MODELO de todo. Y= -93945.33 +131.85X1+ 123.84X2+ 110.50X3 +1088.96X4

131.85 (X1)–> Es el aumento en el precio del auto cuando caallos de fuerzas aumento en 1 kilobatius y las demás variables permanecen constantes.

110.5 (X3) = es el aumento del preico del aumento cuando la longitus del aumento aumenta en 1 … y las demás variales permanecen constantes.

C) DEMOSTRAR LA SIGNIFICANCIA DEL MODELO:

H0= todas 0 H1= al menos 1 es diferente de 0

Con el summary anterior se mira el p value… p-value: < 2.2e-16–> menor, se descarta y ya. al emnos una es disntinta de 0.

EL r2 es con el r ajustado –> Adjusted R-squared: 0.7551 r%: 75.51%

  1. CUÁL RETIRARÍAMOS??

H0: x valor 0 H1: x diferente de 0

P valor ALFAS (rechazo H0–> menor a ella) 0.000 0.001 0.010 0.050 . 0.100

EL alfa de carlength es significativa pero al 5%.


El alfa fijo es 0.05. revisar la última fila)

X1: no influye, es mayor a 0.05 X2: sí influye, es menor a 0.05 X3: sí influye X4: Sí influye

Se retirararía el X1. porque no influye.

model2<-lm(price~horsepower+carlength+carwidth)
summary(model2)
## 
## Call:
## lm(formula = price ~ horsepower + carlength + carwidth)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9449.6 -2608.1   -86.6  1346.7 15621.8 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -87369.73   12046.14  -7.253 8.65e-12 ***
## horsepower     109.64       9.16  11.969  < 2e-16 ***
## carlength       81.48      41.68   1.955    0.052 .  
## carwidth      1138.71     260.20   4.376 1.94e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3970 on 201 degrees of freedom
## Multiple R-squared:  0.7567, Adjusted R-squared:  0.753 
## F-statistic: 208.4 on 3 and 201 DF,  p-value: < 2.2e-16

Adjusted R-squared: 0.753 –> r2 –> 75.3 %

X1: no influye, es mayor a 0.05 X2: sí influye, es menor a 0.05 X3: no influye X4: Sí influye

QUITAR X1 y X3

model3<-lm(price~horsepower+carwidth)
summary(model3)
## 
## Call:
## lm(formula = price ~ horsepower + carwidth)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11898.5  -2463.2   -352.8   1375.1  16413.8 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -98767.300  10614.621  -9.305   <2e-16 ***
## horsepower     110.225      9.219  11.956   <2e-16 ***
## carwidth      1525.884    169.939   8.979   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3998 on 202 degrees of freedom
## Multiple R-squared:  0.7521, Adjusted R-squared:  0.7496 
## F-statistic: 306.3 on 2 and 202 DF,  p-value: < 2.2e-16

CALUCULE EL MODELO PASIMONIOSO: Mejor modelo con la menor cantidad de variables.

r2 ajustado: 0.7496 ………………………………………………………..