Thông tin sinh viên

Thông tin cá nhân Column

Thông tin cá nhân

Tên: Nguyễn Ngọc Long MSV: 11223918
Sinh nhật: 06/04/2004

Thông tin trường lớp Column

Thông tin trường lớp

Trường: trường Công nghệ - Đại học Kinh tế Quốc dân
Ngành: Hệ thống thông in quản lý
Lớp: MIS64A

Câu Hỏi 2

Câu 2 Column

Phân tích

Sử dụng hàm trong R để chuyển đổi dữ liệu trong file DATA12.txt từ dạng cột sang dạng dòng, khóa được sử dụng là MAKH.
    MAKH SANPHAM SOLUONG
1  KH001    BANH       6
2  KH002    BANH       8
3  KH003    BANH       9
4  KH004    BANH       5
5  KH005    BANH       7
6  KH001     KEO       8
7  KH002     KEO       4
8  KH003     KEO       7
9  KH004     KEO       9
10 KH005     KEO       6
11 KH001  NUOCGK       7
12 KH002  NUOCGK       3
13 KH003  NUOCGK       5
14 KH004  NUOCGK       6
15 KH005  NUOCGK       7

Câu Hỏi 3

Câu 3 Column

Phân tích

Xác định hàm hồi quy cho dữ liệu trong file DATA43.txt (Cột 1 là biến phụ thuộc, các cột sau là biến độc lập). Xác định mô hình hồi quy tối ưu và giải thích
      y   a1   a2   a3  a4
1 12616 5185 2200 7103 303
2 12355 4672 1960 6840 338
3 11917 4946 2120 6717 304
4 12930 5446 2280 7299 284
5 13129 5313 1960 7016 334
6 12147 5170 1720 5974 323
Xây dựng mô hình ban đầu

Call:
lm(formula = y ~ ., data = dt43)

Residuals:
     Min       1Q   Median       3Q      Max 
-269.855 -134.180    6.643  123.148  259.369 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2289.55696  143.36765  15.970  < 2e-16 ***
a1             1.00870    0.01769  57.026  < 2e-16 ***
a2            -1.00110    0.03360 -29.797  < 2e-16 ***
a3             0.99248    0.01119  88.702  < 2e-16 ***
a4             0.89596    0.13217   6.779 4.43e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 146.1 on 395 degrees of freedom
Multiple R-squared:  0.9702,    Adjusted R-squared:  0.9699 
F-statistic:  3211 on 4 and 395 DF,  p-value: < 2.2e-16
Xây dựng mô hình tối ưu
Start:  AIC=3992.66
y ~ a1 + a2 + a3 + a4

       Df Sum of Sq       RSS    AIC
<none>                8436867 3992.7
- a4    1    981491   9418358 4034.7
- a2    1  18963904  27400771 4461.8
- a1    1  69459523  77896390 4879.8
- a3    1 168054604 176491471 5206.9

Call:
lm(formula = y ~ a1 + a2 + a3 + a4, data = dt43)

Residuals:
     Min       1Q   Median       3Q      Max 
-269.855 -134.180    6.643  123.148  259.369 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2289.55696  143.36765  15.970  < 2e-16 ***
a1             1.00870    0.01769  57.026  < 2e-16 ***
a2            -1.00110    0.03360 -29.797  < 2e-16 ***
a3             0.99248    0.01119  88.702  < 2e-16 ***
a4             0.89596    0.13217   6.779 4.43e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 146.1 on 395 degrees of freedom
Multiple R-squared:  0.9702,    Adjusted R-squared:  0.9699 
F-statistic:  3211 on 4 and 395 DF,  p-value: < 2.2e-16

Mô hình hồi quy tối ưu có dạng: y = 2289.56 + 1.008 * a1 − 1.001 * a2 + 0.992 * a3 + 0.896 * a4
Tất cả các biến a1, a2, a3, và a4 đều có p-value rất nhỏ (đều nhỏ hơn 0,05), cho nên chúng đều có ý nghĩa thống kê. Vì tất cả các biến đều có ý nghĩa thống kê cao và giá trị R-squared đạt mức rất cao (0.9702), mô hình hiện tại đã là mô hình tối ưu cho dữ liệu này. Không cần loại bỏ thêm biến nào, vì việc loại bỏ có thể làm giảm độ chính xác của mô hình.

Câu Hỏi 4

Câu 4 Column

Phân tích

Dữ liệu trong file DATA53 chứa: số tiền mua hàng gần đây nhất, trạng thái mua hàng trong tháng vừa qua (0: không mua, 1: có mua), trạng thái mua hàng trong tháng này (0: không mua, 1: có mua).
  MaKH Tienmua Thangqua Thangnay
1    1   32400        1        0
2    2   47800        1        0
3    3   30200        0        0
4    4   59900        0        0
5    5   36800        1        0
6    6   35700        0        1
a,Xác định hàm hồi quy (P) cho trạng thái mua hàng trong tháng hiện tại.

Call:
glm(formula = Thangnay ~ Tienmua + Thangqua, family = "binomial", 
    data = dt53)

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.730e+00  4.942e-01  -3.501 0.000464 ***
Tienmua      1.746e-05  7.675e-06   2.274 0.022942 *  
Thangqua     7.710e-01  4.401e-01   1.752 0.079792 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 134.60  on 99  degrees of freedom
Residual deviance: 124.22  on 97  degrees of freedom
AIC: 130.22

Number of Fisher Scoring iterations: 4

Hàm hồi quy (P): P = 1 / (1 + e^-(-1.730 + 1.746e-05 * Tienmua + 7.710e-01 * Thangqua))

b,Dự báo khả năng khách có mua hàng trong tháng này hay không với số tiền mua tháng gần nhất là 50000, tháng vừa qua khách không mua hàng
        1 
0.2978913 
Có 29,79% khách hàng có mua hàng trong tháng này
c,So sánh khả năng mua hàng trong tháng này của 2 khách hàng cùng mua hàng với số tiền là 70000, khách 1 có mua hàng, khách 2 không mua hàng trong tháng vừa qua.
Khả năng mua hàng trong tháng này của khách hàng 1:  0.5653248 
Khả năng mua hàng trong tháng này của khách hàng 2:  0.3756096 

Khách hàng mua hàng với số tiền 70000 và có mua hàng trong tháng vừa qua có tỉ lệ mua hàng trong tháng này 56,53% cao hơn 18,97% so với khách hàng mua hàng với số tiền 70000 và không mua hàng trong tháng vừa qua (37,56%)