# Load thư viện Mass chứa tập dữ liệu Boston
library(MASS)
# lm(medv~lstat * age ,data=Boston) là hàm dùng để fit một mô hình hồi quy bội với medv là giá trị đầu ra cần được dự đoán và lstat, age, và interaction term lstat x age là giá trị đầu vào trong tập dữ liệu Boston
summary(lm(medv~lstat*age,data = Boston))
Call:
lm(formula = medv ~ lstat * age, data = Boston)
Residuals:
Min 1Q Median 3Q Max
-15.806 -4.045 -1.333 2.085 27.552
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.0885359 1.4698355 24.553 < 2e-16 ***
lstat -1.3921168 0.1674555 -8.313 8.78e-16 ***
age -0.0007209 0.0198792 -0.036 0.9711
lstat:age 0.0041560 0.0018518 2.244 0.0252 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.149 on 502 degrees of freedom
Multiple R-squared: 0.5557, Adjusted R-squared: 0.5531
F-statistic: 209.3 on 3 and 502 DF, p-value: < 2.2e-16
Hàm summary(lm.fit) sẽ cho chúng ta biết thông tin về giá trị các hệ số B0, B1,B2,B3 cho các giá trị đầu vào là lstat,age,lstat x age, cũng như là p-values, thống kê t(t-statistic), độ lệch chuẩn cho những hệ số này, cũng như là thống kê R^2, sai số chuẩn (standard errors) và thống kê F (F-statistic) cho mô hình
# Load thư viện ISLR chứa tập dữ liệu Carseats
library(ISLR)
# Hiển trị dữ liệu dưới dạng bảng tính trong window
fix(Carseats)
# lm(Sales~. + Income : Advertising + Price :Age ,data=Carseats) là hàm dùng để fit một mô hình hồi quy bội với Sales là giá trị đầu ra cần được dự đoán và lấy tất cả các biến trong dữ liệu Carset, cộng thêm 2 biến là biến Income:Advertising là interaction term giữa Income và Advertising, và biến Price:Age là interaction term giữa Price và Age làm giá trị đầu vào trong tập dữ liệu Carseats
lm.fit = lm(Sales~. + Income : Advertising +
Price :Age ,data=Carseats)
summary(lm.fit)
Call:
lm(formula = Sales ~ . + Income:Advertising + Price:Age, data = Carseats)
Residuals:
Min 1Q Median 3Q Max
-2.9208 -0.7503 0.0177 0.6754 3.3413
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.5755654 1.0087470 6.519 2.22e-10 ***
CompPrice 0.0929371 0.0041183 22.567 < 2e-16 ***
Income 0.0108940 0.0026044 4.183 3.57e-05 ***
Advertising 0.0702462 0.0226091 3.107 0.002030 **
Population 0.0001592 0.0003679 0.433 0.665330
Price -0.1008064 0.0074399 -13.549 < 2e-16 ***
ShelveLocGood 4.8486762 0.1528378 31.724 < 2e-16 ***
ShelveLocMedium 1.9532620 0.1257682 15.531 < 2e-16 ***
Age -0.0579466 0.0159506 -3.633 0.000318 ***
Education -0.0208525 0.0196131 -1.063 0.288361
UrbanYes 0.1401597 0.1124019 1.247 0.213171
USYes -0.1575571 0.1489234 -1.058 0.290729
Income:Advertising 0.0007510 0.0002784 2.698 0.007290 **
Price:Age 0.0001068 0.0001333 0.801 0.423812
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.011 on 386 degrees of freedom
Multiple R-squared: 0.8761, Adjusted R-squared: 0.8719
F-statistic: 210 on 13 and 386 DF, p-value: < 2.2e-16
Do biến ShelveLo là giá trị định tính có 3 label nên tạo ra 2 biến giả. Urban và US có 2 label nên tạo 1 biến giả. Hàm cho chúng ta biết giá trị của 14 hệ số của mô hình (B0 -> B13). Những biến Population, Education, Price:Age có p-value khá lớn nên không có bằng chứng thông kê rằng có mối quan hệ giữa các biến này với biến đầu ra Sales. UrbanYes và USYes có giá trị p-value lớn nên không có bằng chứng thông kê chỉ ra sự khác biệt về Sales giữa thành thị và nông thôn, giữa USA và không phải USA
Ngoài ra hàm summary còn cung cấp những thông tin về thống kê R^2, sai số chuẩn (standard errors) và thống kê F (F-statistic) cho mô hình
# attach dùng để khiến cho những biến feature trong dữ liệu có sẵn trong Rstudio theo tên
attach(Carseats )
The following objects are masked from Carseats (pos = 3):
Advertising, Age, CompPrice, Education, Income, Population, Price, Sales, ShelveLoc, Urban, US
The following objects are masked from Carseats (pos = 4):
Advertising, Age, CompPrice, Education, Income, Population, Price, Sales, ShelveLoc, Urban, US
The following objects are masked from Carseats (pos = 5):
Advertising, Age, CompPrice, Education, Income, Population, Price, Sales, ShelveLoc, Urban, US
# Hàm contrast trả về những mã hoá mà R sử dụng cho những biến giả
contrasts(ShelveLoc)
Good Medium
Bad 0 0
Good 1 0
Medium 0 1
R đã tạo ra biến giả ShelveLocGood mà có giá trị =1 nếu ShelveLoc = good, ngược lại thì =0. R cũng đã tạo ra biến giả ShelveLocMedium mà có giá trị =1 nếu ShelveLoc = medium, ngược lại =0.