1 Bẫy Ý Nghĩa Thống Kê

Khi phân tích dữ liệu để xây dựng những linear regression models, nếu chúng ta tìm được một mô hình có ý nghĩa thống kê và đường biểu diễn y = a + bx phù hợp với phân bố dữ liệu, lúc đó chúng ta hài lòng với kết quả của mình và ít khi có bất kì hoài nghi nào về tính duy nhất đúng của chúng nữa.

Ví dụ kinh điển, ANSCOMBE’s QUARTET sẽ cho chúng ta biết là mình không nên chủ quan với những con số tóm tắt và ngưỡng ý nghĩa thống kê vừa đạt được mà hãy đặt vấn đề tiếp là liệu chúng ta đang bị vướng vào cái bẫy dữ liệu nào không?

Ví dụ được trình bày dưới đây sẽ giải thích cho chúng ta một vài điều thú vị.

2 Chuẩn bị dữ liệu

Tôi sử dụng dataset từ package MASS của ví dụ kinh điển ANSCOMBE’s QUARTET bao gồm 11 quan sát và 8 biến số x1:x4 và y1:y4.

3 Mô hình hồi qui tuyến tính y = a + bx

Trước hết chúng ta xem xét mối quan hệ giữa cặp biến số đầu tiên x1 và y1

library(ggplot2)
m1<-lm(y1~x1,data = anscombe)
summary(m1)

## 
## Call:
## lm(formula = y1 ~ x1, data = anscombe)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.92127 -0.45577 -0.04136  0.70941  1.83882 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   3.0001     1.1247   2.667  0.02573 * 
## x1            0.5001     0.1179   4.241  0.00217 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.237 on 9 degrees of freedom
## Multiple R-squared:  0.6665, Adjusted R-squared:  0.6295 
## F-statistic: 17.99 on 1 and 9 DF,  p-value: 0.00217

p1 <- ggplot(anscombe, aes(x1, y1)) + 
  geom_point()+
 geom_smooth(method = lm, se = TRUE)
p1

Các thông số tương ứng với a = 3.0001 và b = 0.5001 cũng như mô hình hồi quy tuyến tính trên đều đạt ngưỡng ý nghĩa thống kê, Pr = 0.00217 với Adj. R-squared = 0.6295

Mô hình phân bố scarted giữa x1 và y1 nói lên mối quan hệ linear giữa hai biến số này vì chúng phân bố khá đồng nhất trong toàn dãi x1 và y1.

Đến đây, chúng ta thường khá hài lòng với kết quả của mình về mối quan hệ tuyến tính giữa hai biến số mà không hề đặt nghi vấn về những tình huống khác có thể xảy ra.

4 Những tình huống khác thường

Ngoài cặp biến số (x1,y1) ra, chúng ta tiếp tục phân tích mối quan hệ giữa các cặp biến số còn lại là (x2,y2), (x3,y3) và (x4,y4).

Trước hết xem means của chúng có khác nhau hay không.

summary(anscombe)

##        x1             x2             x3             x4    
##  Min.   : 4.0   Min.   : 4.0   Min.   : 4.0   Min.   : 8  
##  1st Qu.: 6.5   1st Qu.: 6.5   1st Qu.: 6.5   1st Qu.: 8  
##  Median : 9.0   Median : 9.0   Median : 9.0   Median : 8  
##  Mean   : 9.0   Mean   : 9.0   Mean   : 9.0   Mean   : 9  
##  3rd Qu.:11.5   3rd Qu.:11.5   3rd Qu.:11.5   3rd Qu.: 8  
##  Max.   :14.0   Max.   :14.0   Max.   :14.0   Max.   :19  
##        y1               y2              y3              y4        
##  Min.   : 4.260   Min.   :3.100   Min.   : 5.39   Min.   : 5.250  
##  1st Qu.: 6.315   1st Qu.:6.695   1st Qu.: 6.25   1st Qu.: 6.170  
##  Median : 7.580   Median :8.140   Median : 7.11   Median : 7.040  
##  Mean   : 7.501   Mean   :7.501   Mean   : 7.50   Mean   : 7.501  
##  3rd Qu.: 8.570   3rd Qu.:8.950   3rd Qu.: 7.98   3rd Qu.: 8.190  
##  Max.   :10.840   Max.   :9.260   Max.   :12.74   Max.   :12.500

Kết quả cho thấy các cặp (x,y) có n và mean khá giống nhau. Hay nói cách khác đây có thể xem là là 4 subsets được rút ra ngẫu nhiên từ cùng một dataset.

Chúng ta xem mối quan hệ của chúng thế nào giữa 3 cặp (x,y) còn lại.

m1<-lm(y1~x1,data=anscombe)
m2<-lm(y2~x2,data=anscombe)
m3<-lm(y3~x3,data=anscombe)
m4<-lm(y4~x4,data=anscombe)
summary(m1)

## 
## Call:
## lm(formula = y1 ~ x1, data = anscombe)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.92127 -0.45577 -0.04136  0.70941  1.83882 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   3.0001     1.1247   2.667  0.02573 * 
## x1            0.5001     0.1179   4.241  0.00217 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.237 on 9 degrees of freedom
## Multiple R-squared:  0.6665, Adjusted R-squared:  0.6295 
## F-statistic: 17.99 on 1 and 9 DF,  p-value: 0.00217

summary(m2)

## 
## Call:
## lm(formula = y2 ~ x2, data = anscombe)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9009 -0.7609  0.1291  0.9491  1.2691 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    3.001      1.125   2.667  0.02576 * 
## x2             0.500      0.118   4.239  0.00218 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.237 on 9 degrees of freedom
## Multiple R-squared:  0.6662, Adjusted R-squared:  0.6292 
## F-statistic: 17.97 on 1 and 9 DF,  p-value: 0.002179

summary(m3)

## 
## Call:
## lm(formula = y3 ~ x3, data = anscombe)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.1586 -0.6146 -0.2303  0.1540  3.2411 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   3.0025     1.1245   2.670  0.02562 * 
## x3            0.4997     0.1179   4.239  0.00218 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.236 on 9 degrees of freedom
## Multiple R-squared:  0.6663, Adjusted R-squared:  0.6292 
## F-statistic: 17.97 on 1 and 9 DF,  p-value: 0.002176

summary(m4)

## 
## Call:
## lm(formula = y4 ~ x4, data = anscombe)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -1.751 -0.831  0.000  0.809  1.839 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   3.0017     1.1239   2.671  0.02559 * 
## x4            0.4999     0.1178   4.243  0.00216 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.236 on 9 degrees of freedom
## Multiple R-squared:  0.6667, Adjusted R-squared:  0.6297 
## F-statistic:    18 on 1 and 9 DF,  p-value: 0.002165

Nhìn vào summary của bốn models m1, m2, m3 và m4 ở các coefficients, Pr và Adj. R-squared ta thấy chúng hầu như tương đồng. Điều này cho chúng ta ý nghĩ là các cặp biên số (x,y) này đều có quan hệ linear với phương trình gần giống:

y = 3 + 0.5*x

Đây chính là cái bẫy dữ liệu.

Các bạn hãy nhìn vào biểu đồ phân bố và đường hồi qui của tất cả 4 cặp (x,y) khi được sắp đặt trên một panel nhé.

library(ggpubr)
library(gridExtra)
library(ggplot2)

p1 <- ggplot(anscombe) + geom_point(aes(x1, y1), color = "darkorange", size = 3) + theme_bw() + scale_x_continuous(breaks = seq(0, 20, 2)) + scale_y_continuous(breaks = seq(0, 12, 2)) + geom_abline(intercept = 3, slope = 0.5, color = "cornflowerblue") + expand_limits(x = 0, y = 0) + labs(title = "dataset 1")
p2 <- ggplot(anscombe) + geom_point(aes(x2, y2), color = "darkorange", size = 3) + theme_bw() + scale_x_continuous(breaks = seq(0, 20, 2)) + scale_y_continuous(breaks = seq(0, 12, 2)) + geom_abline(intercept = 3, slope = 0.5, color = "cornflowerblue") + expand_limits(x = 0, y = 0) + labs(title = "dataset 2")
p3 <- ggplot(anscombe) + geom_point(aes(x3, y3), color = "darkorange", size = 3) + theme_bw() + scale_x_continuous(breaks = seq(0, 20, 2)) + scale_y_continuous(breaks = seq(0, 12, 2)) + geom_abline(intercept = 3, slope = 0.5, color = "cornflowerblue") + expand_limits(x = 0, y = 0) + labs(title = "dataset 3")
p4 <- ggplot(anscombe) + geom_point(aes(x4, y4), color = "darkorange", size = 3) + theme_bw() + scale_x_continuous(breaks = seq(0, 20, 2)) + scale_y_continuous(breaks = seq(0, 12, 2)) + geom_abline(intercept = 3, slope = 0.5, color = "cornflowerblue") + expand_limits(x = 0, y = 0) + labs(title = "dataset 4")

grid.arrange(p1, p2, p3, p4, top = "Anscombe's Quartet")

Đến đây thì chúng ta đã hiểu vì sao nhà thống kê học Francis Anscombe lại tạo ra bộ dữ liệu này để cảnh báo chúng ta về cái bẫy ý nghĩa thống kê của các mô hình linear regression.

Trong cặp (x2, y2) và (x4, y4) thì mối quan hệ không thể gọi là linear nhưng mọi chỉ số đều cho thấy chúng quan hệ tuyến tính có ý nghĩa thống kê Pr và Adj. R-squared bảo đảm cả.

Thông điệp mà ông Anscombe muốn gởi đến chúng ta là hãy nhìn vào biểu đồ phân bố của (x,y) trước hết để có ý niệm ban đầu về mối quan hệ của chúng. Sau khi dựng được mô hình tuyến tính thì hãy đánh giá nó trong các datasets khác và so sánh các tiêu chí khác như variance, AIC… nhằm tránh được các loại bẫy ý nghĩa thống kê mà chúng ta mắc phải khi vô tình vi phạm một giả định nào đó của phép kiểm định.

5 Phân tích dữ liệu gộp lại

Để có cái nhìn tổng thể về toàn bộ các cặp (x,y) chúng ta gộp chung lại và phân tích như sau:

x<-c(anscombe$x1,anscombe$x2,anscombe$x3,anscombe$x3)
y<-c(anscombe$y1,anscombe$y2,anscombe$y3,anscombe$y4)
df<-data.frame(x,y)
dim(df)

## [1] 44  2

lm(y~x,data=df)

## 
## Call:
## lm(formula = y ~ x, data = df)
## 
## Coefficients:
## (Intercept)            x  
##      4.5587       0.3269

library(ggplot2)
p <- ggplot(df, aes(x, y)) + 
  geom_point()+
 geom_smooth(method = lm, se = TRUE)
p

Bạn nhận xét thế nào về phân bố của (x,y) khi gộp chung lại ? Khi có một dataset lớn hơn thì các mối quan hệ sẽ được chứng minh thuyết phục hơn.

Chân thành cám ơn các bạn đã đọc bài viết này. Bất cứ góp ý hay bàn luận nào của các bạn cũng luôn được mong đợi.

LS0tDQp0aXRsZTogIkFOU0NPTUJFJ1MgUVVBUlRFVCINCnN1YnRpdGxlOiAiTGluZWFyIFJlZ3Jlc3Npb24gTW9kZWw6IELhuqt5IE1vZGVsIHbDoCBUw7NtIHThuq90IEThu68gTGnhu4d1Ig0KYXV0aG9yOiAiTmd1eWVuIE5nb2MgVGhpZXUiDQpkYXRlOiAiMDMtMDgtMjAxNyINCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDogDQogICAgY29kZV9kb3dubG9hZDogdHJ1ZQ0KICAgIGNvZGVfZm9sZGluZzogaGlkZQ0KICAgIG51bWJlcl9zZWN0aW9uczogeWVzDQogICAgdGhlbWU6ICJkZWZhdWx0Ig0KICAgIHRvYzogVFJVRQ0KICAgIHRvY19mbG9hdDogVFJVRQ0KLS0tDQojIELhuqt5IMOdIE5naMSpYSBUaOG7kW5nIEvDqg0KDQpLaGkgcGjDom4gdMOtY2ggZOG7ryBsaeG7h3UgxJHhu4MgeMOieSBk4buxbmcgbmjhu69uZyBsaW5lYXIgcmVncmVzc2lvbiBtb2RlbHMsIG7hur91IGNow7puZyB0YSB0w6xtIMSRxrDhu6NjIG3hu5l0IG3DtCBow6xuaCBjw7Mgw70gbmdoxKlhIHRo4buRbmcga8OqIHbDoCDEkcaw4budbmcgYmnhu4N1IGRp4buFbiB5ID0gYSArIGJ4IHBow7kgaOG7o3AgduG7m2kgcGjDom4gYuG7kSBk4buvIGxp4buHdSwgbMO6YyDEkcOzIGNow7puZyB0YSBow6BpIGzDsm5nIHbhu5tpIGvhur90IHF14bqjIGPhu6dhIG3DrG5oIHbDoCDDrXQga2hpIGPDsyBi4bqldCBrw6wgaG/DoGkgbmdoaSBuw6BvIHbhu4EgdMOtbmggZHV5IG5o4bqldCDEkcO6bmcgY+G7p2EgY2jDum5nIG7hu69hLiANCg0KVsOtIGThu6Uga2luaCDEkWnhu4NuLCBBTlNDT01CRSdzIFFVQVJURVQgc+G6vSBjaG8gY2jDum5nIHRhIGJp4bq/dCBsw6AgbcOsbmgga2jDtG5nIG7Dqm4gY2jhu6cgcXVhbiB24bubaSBuaOG7r25nIGNvbiBz4buRIHTDs20gdOG6r3QgdsOgIG5nxrDhu6FuZyDDvSBuZ2jEqWEgdGjhu5FuZyBrw6ogduG7q2EgxJHhuqF0IMSRxrDhu6NjIG3DoCBow6N5IMSR4bq3dCB24bqlbiDEkeG7gSB0aeG6v3AgbMOgIGxp4buHdSBjaMO6bmcgdGEgxJFhbmcgYuG7iyB2xrDhu5tuZyB2w6BvIGPDoWkgYuG6q3kgZOG7ryBsaeG7h3UgbsOgbyBraMO0bmc/DQoNClbDrSBk4bulIMSRxrDhu6NjIHRyw6xuaCBiw6B5IGTGsOG7m2kgxJHDonkgc+G6vSBnaeG6o2kgdGjDrWNoIGNobyBjaMO6bmcgdGEgbeG7mXQgdsOgaSDEkWnhu4F1IHRow7ogduG7iy4NCg0KIyBDaHXhuqluIGLhu4sgZOG7ryBsaeG7h3UNCg0KVMO0aSBz4butIGThu6VuZyBkYXRhc2V0IHThu6sgcGFja2FnZSBNQVNTIGPhu6dhIHbDrSBk4bulIGtpbmggxJFp4buDbiBBTlNDT01CRSdzIFFVQVJURVQgYmFvIGfhu5NtIDExIHF1YW4gc8OhdCB2w6AgOCBiaeG6v24gc+G7kSB4MTp4NCB2w6AgeTE6eTQuDQpgYGB7ciBzZXR1cCwgaW5jbHVkZT1GQUxTRX0NCmtuaXRyOjpvcHRzX2NodW5rJHNldChlY2hvID0gVFJVRSkNCmxpYnJhcnkoTUFTUykNCmRhdGEoYW5zY29tYmUpDQpoZWFkKGFuc2NvbWJlKQ0KYGBgDQoNCiMgTcO0IGjDrG5oIGjhu5NpIHF1aSB0dXnhur9uIHTDrW5oIHkgPSBhICsgYngNCg0KVHLGsOG7m2MgaOG6v3QgY2jDum5nIHRhIHhlbSB4w6l0IG3hu5FpIHF1YW4gaOG7hyBnaeG7r2EgY+G6t3AgYmnhur9uIHPhu5EgxJHhuqd1IHRpw6puIHgxIHbDoCB5MQ0KDQoNCmBgYHtyLG1lc3NhZ2UgPSBGQUxTRSx3YXJuaW5nPUZBTFNFfQ0KbGlicmFyeShnZ3Bsb3QyKQ0KbTE8LWxtKHkxfngxLGRhdGEgPSBhbnNjb21iZSkNCnN1bW1hcnkobTEpDQpwMSA8LSBnZ3Bsb3QoYW5zY29tYmUsIGFlcyh4MSwgeTEpKSArIA0KICBnZW9tX3BvaW50KCkrDQogZ2VvbV9zbW9vdGgobWV0aG9kID0gbG0sIHNlID0gVFJVRSkNCnAxDQoNCmBgYA0KDQoNCkPDoWMgdGjDtG5nIHPhu5EgdMawxqFuZyDhu6luZyB24bubaSBhID0gMy4wMDAxIHbDoCBiID0gMC41MDAxIGPFqW5nIG5oxrAgbcO0IGjDrG5oIGjhu5NpIHF1eSB0dXnhur9uIHTDrW5oIHRyw6puIMSR4buBdSDEkeG6oXQgbmfGsOG7oW5nIMO9IG5naMSpYSB0aOG7kW5nIGvDqiwgUHIgPSAwLjAwMjE3IHbhu5tpIEFkai4gUi1zcXVhcmVkID0gMC42Mjk1DQoNCk3DtCBow6xuaCBwaMOibiBi4buRIHNjYXJ0ZWQgZ2nhu69hIHgxIHbDoCB5MSBuw7NpIGzDqm4gbeG7kWkgcXVhbiBo4buHIGxpbmVhciBnaeG7r2EgaGFpIGJp4bq/biBz4buRIG7DoHkgdsOsIGNow7puZyBwaMOibiBi4buRIGtow6EgxJHhu5NuZyBuaOG6pXQgdHJvbmcgdG/DoG4gZMOjaSB4MSB2w6AgeTEuDQoNCsSQ4bq/biDEkcOieSwgY2jDum5nIHRhIHRoxrDhu51uZyBraMOhIGjDoGkgbMOybmcgduG7m2kga+G6v3QgcXXhuqMgY+G7p2EgbcOsbmggduG7gSBt4buRaSBxdWFuIGjhu4cgdHV54bq/biB0w61uaCBnaeG7r2EgaGFpIGJp4bq/biBz4buRIG3DoCBraMO0bmcgaOG7gSDEkeG6t3QgbmdoaSB24bqlbiB24buBIG5o4buvbmcgdMOsbmggaHXhu5FuZyBraMOhYyBjw7MgdGjhu4MgeOG6o3kgcmEuDQoNCiMgTmjhu69uZyB0w6xuaCBodeG7kW5nIGtow6FjIHRoxrDhu51uZw0KDQpOZ2/DoGkgY+G6t3AgYmnhur9uIHPhu5EgKHgxLHkxKSByYSwgY2jDum5nIHRhIHRp4bq/cCB04bulYyBwaMOibiB0w61jaCBt4buRaSBxdWFuIGjhu4cgZ2nhu69hIGPDoWMgY+G6t3AgYmnhur9uIHPhu5EgY8OybiBs4bqhaSBsw6AgKHgyLHkyKSwgKHgzLHkzKSB2w6AgKHg0LHk0KS4NCg0KVHLGsOG7m2MgaOG6v3QgeGVtIG1lYW5zIGPhu6dhIGNow7puZyBjw7Mga2jDoWMgbmhhdSBoYXkga2jDtG5nLg0KDQoNCmBgYHtyLG1lc3NhZ2UgPSBGQUxTRSx3YXJuaW5nPUZBTFNFfQ0KDQpzdW1tYXJ5KGFuc2NvbWJlKQ0KDQpgYGANCg0KDQpL4bq/dCBxdeG6oyBjaG8gdGjhuqV5IGPDoWMgY+G6t3AgKHgseSkgY8OzIG4gdsOgIG1lYW4ga2jDoSBnaeG7kW5nIG5oYXUuIEhheSBuw7NpIGPDoWNoIGtow6FjIMSRw6J5IGPDsyB0aOG7gyB4ZW0gbMOgIGzDoCA0IHN1YnNldHMgxJHGsOG7o2MgcsO6dCByYSBuZ+G6q3Ugbmhpw6puIHThu6sgY8O5bmcgbeG7mXQgZGF0YXNldC4NCg0KQ2jDum5nIHRhIHhlbSBt4buRaSBxdWFuIGjhu4cgY+G7p2EgY2jDum5nIHRo4bq/IG7DoG8gZ2nhu69hIDMgY+G6t3AgKHgseSkgY8OybiBs4bqhaS4NCg0KYGBge3IsIG1lc3NhZ2UgPSBGQUxTRSx3YXJuaW5nPUZBTFNFfQ0KbTE8LWxtKHkxfngxLGRhdGE9YW5zY29tYmUpDQptMjwtbG0oeTJ+eDIsZGF0YT1hbnNjb21iZSkNCm0zPC1sbSh5M354MyxkYXRhPWFuc2NvbWJlKQ0KbTQ8LWxtKHk0fng0LGRhdGE9YW5zY29tYmUpDQpzdW1tYXJ5KG0xKQ0Kc3VtbWFyeShtMikNCnN1bW1hcnkobTMpDQpzdW1tYXJ5KG00KQ0KDQpgYGANCg0KDQpOaMOsbiB2w6BvIHN1bW1hcnkgY+G7p2EgYuG7kW4gbW9kZWxzIG0xLCBtMiwgbTMgdsOgIG00IOG7nyBjw6FjIGNvZWZmaWNpZW50cywgUHIgdsOgIEFkai4gUi1zcXVhcmVkIHRhIHRo4bqleSBjaMO6bmcgaOG6p3UgbmjGsCB0xrDGoW5nIMSR4buTbmcuIMSQaeG7gXUgbsOgeSBjaG8gY2jDum5nIHRhIMO9IG5naMSpIGzDoCBjw6FjIGPhurdwIGJpw6puIHPhu5EgKHgseSkgbsOgeSDEkeG7gXUgY8OzIHF1YW4gaOG7hyBsaW5lYXIgduG7m2kgcGjGsMahbmcgdHLDrG5oIGfhuqduIGdp4buRbmc6DQoNCnkgPSAzICsgMC41KngNCg0KxJDDonkgY2jDrW5oIGzDoCBjw6FpIGLhuqt5IGThu68gbGnhu4d1Lg0KDQpDw6FjIGLhuqFuIGjDo3kgbmjDrG4gdsOgbyBiaeG7g3UgxJHhu5MgcGjDom4gYuG7kSB2w6AgxJHGsOG7nW5nIGjhu5NpIHF1aSBj4bunYSB04bqldCBj4bqjIDQgY+G6t3AgKHgseSkga2hpIMSRxrDhu6NjIHPhuq9wIMSR4bq3dCB0csOqbiBt4buZdCBwYW5lbCBuaMOpLg0KDQoNCmBgYHtyLG1lc3NhZ2UgPSBGQUxTRSx3YXJuaW5nPUZBTFNFfQ0KbGlicmFyeShnZ3B1YnIpDQpsaWJyYXJ5KGdyaWRFeHRyYSkNCmxpYnJhcnkoZ2dwbG90MikNCg0KcDEgPC0gZ2dwbG90KGFuc2NvbWJlKSArIGdlb21fcG9pbnQoYWVzKHgxLCB5MSksIGNvbG9yID0gImRhcmtvcmFuZ2UiLCBzaXplID0gMykgKyB0aGVtZV9idygpICsgc2NhbGVfeF9jb250aW51b3VzKGJyZWFrcyA9IHNlcSgwLCAyMCwgMikpICsgc2NhbGVfeV9jb250aW51b3VzKGJyZWFrcyA9IHNlcSgwLCAxMiwgMikpICsgZ2VvbV9hYmxpbmUoaW50ZXJjZXB0ID0gMywgc2xvcGUgPSAwLjUsIGNvbG9yID0gImNvcm5mbG93ZXJibHVlIikgKyBleHBhbmRfbGltaXRzKHggPSAwLCB5ID0gMCkgKyBsYWJzKHRpdGxlID0gImRhdGFzZXQgMSIpDQpwMiA8LSBnZ3Bsb3QoYW5zY29tYmUpICsgZ2VvbV9wb2ludChhZXMoeDIsIHkyKSwgY29sb3IgPSAiZGFya29yYW5nZSIsIHNpemUgPSAzKSArIHRoZW1lX2J3KCkgKyBzY2FsZV94X2NvbnRpbnVvdXMoYnJlYWtzID0gc2VxKDAsIDIwLCAyKSkgKyBzY2FsZV95X2NvbnRpbnVvdXMoYnJlYWtzID0gc2VxKDAsIDEyLCAyKSkgKyBnZW9tX2FibGluZShpbnRlcmNlcHQgPSAzLCBzbG9wZSA9IDAuNSwgY29sb3IgPSAiY29ybmZsb3dlcmJsdWUiKSArIGV4cGFuZF9saW1pdHMoeCA9IDAsIHkgPSAwKSArIGxhYnModGl0bGUgPSAiZGF0YXNldCAyIikNCnAzIDwtIGdncGxvdChhbnNjb21iZSkgKyBnZW9tX3BvaW50KGFlcyh4MywgeTMpLCBjb2xvciA9ICJkYXJrb3JhbmdlIiwgc2l6ZSA9IDMpICsgdGhlbWVfYncoKSArIHNjYWxlX3hfY29udGludW91cyhicmVha3MgPSBzZXEoMCwgMjAsIDIpKSArIHNjYWxlX3lfY29udGludW91cyhicmVha3MgPSBzZXEoMCwgMTIsIDIpKSArIGdlb21fYWJsaW5lKGludGVyY2VwdCA9IDMsIHNsb3BlID0gMC41LCBjb2xvciA9ICJjb3JuZmxvd2VyYmx1ZSIpICsgZXhwYW5kX2xpbWl0cyh4ID0gMCwgeSA9IDApICsgbGFicyh0aXRsZSA9ICJkYXRhc2V0IDMiKQ0KcDQgPC0gZ2dwbG90KGFuc2NvbWJlKSArIGdlb21fcG9pbnQoYWVzKHg0LCB5NCksIGNvbG9yID0gImRhcmtvcmFuZ2UiLCBzaXplID0gMykgKyB0aGVtZV9idygpICsgc2NhbGVfeF9jb250aW51b3VzKGJyZWFrcyA9IHNlcSgwLCAyMCwgMikpICsgc2NhbGVfeV9jb250aW51b3VzKGJyZWFrcyA9IHNlcSgwLCAxMiwgMikpICsgZ2VvbV9hYmxpbmUoaW50ZXJjZXB0ID0gMywgc2xvcGUgPSAwLjUsIGNvbG9yID0gImNvcm5mbG93ZXJibHVlIikgKyBleHBhbmRfbGltaXRzKHggPSAwLCB5ID0gMCkgKyBsYWJzKHRpdGxlID0gImRhdGFzZXQgNCIpDQoNCmdyaWQuYXJyYW5nZShwMSwgcDIsIHAzLCBwNCwgdG9wID0gIkFuc2NvbWJlJ3MgUXVhcnRldCIpDQoNCmBgYA0KDQrEkOG6v24gxJHDonkgdGjDrCBjaMO6bmcgdGEgxJHDoyBoaeG7g3UgdsOsIHNhbyBuaMOgIHRo4buRbmcga8OqIGjhu41jIEZyYW5jaXMgQW5zY29tYmUgbOG6oWkgdOG6oW8gcmEgYuG7mSBk4buvIGxp4buHdSBuw6B5IMSR4buDIGPhuqNuaCBiw6FvIGNow7puZyB0YSB24buBIGPDoWkgYuG6q3kgw70gbmdoxKlhIHRo4buRbmcga8OqIGPhu6dhIGPDoWMgbcO0IGjDrG5oIGxpbmVhciByZWdyZXNzaW9uLiANCg0KVHJvbmcgY+G6t3AgKHgyLCB5MikgdsOgICh4NCwgeTQpIHRow6wgbeG7kWkgcXVhbiBo4buHIGtow7RuZyB0aOG7gyBn4buNaSBsw6AgbGluZWFyIG5oxrBuZyBt4buNaSBjaOG7iSBz4buRIMSR4buBdSBjaG8gdGjhuqV5IGNow7puZyBxdWFuIGjhu4cgdHV54bq/biB0w61uaCBjw7Mgw70gbmdoxKlhIHRo4buRbmcga8OqIFByIHbDoCBBZGouIFItc3F1YXJlZCBi4bqjbyDEkeG6o20gY+G6oy4NCg0KVGjDtG5nIMSRaeG7h3AgbcOgIMO0bmcgQW5zY29tYmUgbXXhu5FuIGfhu59pIMSR4bq/biBjaMO6bmcgdGEgbMOgIGjDo3kgbmjDrG4gdsOgbyBiaeG7g3UgxJHhu5MgcGjDom4gYuG7kSBj4bunYSAoeCx5KSB0csaw4bubYyBo4bq/dCDEkeG7gyBjw7Mgw70gbmnhu4dtIGJhbiDEkeG6p3UgduG7gSBt4buRaSBxdWFuIGjhu4cgY+G7p2EgY2jDum5nLiBTYXUga2hpIGThu7FuZyDEkcaw4bujYyBtw7QgaMOsbmggdHV54bq/biB0w61uaCB0aMOsIGjDo3kgxJHDoW5oIGdpw6EgbsOzIHRyb25nIGPDoWMgZGF0YXNldHMga2jDoWMgdsOgIHNvIHPDoW5oIGPDoWMgdGnDqnUgY2jDrSBraMOhYyBuaMawIHZhcmlhbmNlLCBBSUMuLi4gbmjhurFtIHRyw6FuaCDEkcaw4bujYyBjw6FjIGxv4bqhaSBi4bqreSDDvSBuZ2jEqWEgdGjhu5FuZyBrw6ogbcOgIGNow7puZyB0YSBt4bqvYyBwaOG6o2kga2hpIHbDtCB0w6xuaCB2aSBwaOG6oW0gbeG7mXQgZ2nhuqMgxJHhu4tuaCBuw6BvIMSRw7MgY+G7p2EgcGjDqXAga2nhu4NtIMSR4buLbmguDQoNCiMgUGjDom4gdMOtY2ggZOG7ryBsaeG7h3UgZ+G7mXAgbOG6oWkNCg0KxJDhu4MgY8OzIGPDoWkgbmjDrG4gdOG7lW5nIHRo4buDIHbhu4EgdG/DoG4gYuG7mSBjw6FjIGPhurdwICh4LHkpIGNow7puZyB0YSBn4buZcCBjaHVuZyBs4bqhaSB2w6AgcGjDom4gdMOtY2ggbmjGsCBzYXU6DQoNCmBgYHtyIG1lc3NhZ2UgPSBGQUxTRSx3YXJuaW5nPUZBTFNFfQ0KeDwtYyhhbnNjb21iZSR4MSxhbnNjb21iZSR4MixhbnNjb21iZSR4MyxhbnNjb21iZSR4MykNCnk8LWMoYW5zY29tYmUkeTEsYW5zY29tYmUkeTIsYW5zY29tYmUkeTMsYW5zY29tYmUkeTQpDQpkZjwtZGF0YS5mcmFtZSh4LHkpDQpkaW0oZGYpDQoNCmxtKHl+eCxkYXRhPWRmKQ0KbGlicmFyeShnZ3Bsb3QyKQ0KcCA8LSBnZ3Bsb3QoZGYsIGFlcyh4LCB5KSkgKyANCiAgZ2VvbV9wb2ludCgpKw0KIGdlb21fc21vb3RoKG1ldGhvZCA9IGxtLCBzZSA9IFRSVUUpDQpwDQpgYGANCg0KQuG6oW4gbmjhuq1uIHjDqXQgdGjhur8gbsOgbyB24buBIHBow6JuIGLhu5EgY+G7p2EgKHgseSkga2hpIGfhu5lwIGNodW5nIGzhuqFpID8gS2hpIGPDsyBt4buZdCBkYXRhc2V0IGzhu5tuIGjGoW4gdGjDrCBjw6FjIG3hu5FpIHF1YW4gaOG7hyBz4bq9IMSRxrDhu6NjIGNo4bupbmcgbWluaCB0aHV54bq/dCBwaOG7pWMgaMahbi4NCg0KQ2jDom4gdGjDoG5oIGPDoW0gxqFuIGPDoWMgYuG6oW4gxJHDoyDEkeG7jWMgYsOgaSB2aeG6v3QgbsOgeS4gQuG6pXQgY+G7qSBnw7NwIMO9IGhheSBiw6BuIGx14bqtbiBuw6BvIGPhu6dhIGPDoWMgYuG6oW4gY8WpbmcgbHXDtG4gxJHGsOG7o2MgbW9uZyDEkeG7o2kuDQo=

ANSCOMBE’S QUARTET

Linear Regression Model: Bẫy Model và Tóm tắt Dữ Liệu

Nguyen Ngoc Thieu

03-08-2017

1 Bẫy Ý Nghĩa Thống Kê

2 Chuẩn bị dữ liệu

3 Mô hình hồi qui tuyến tính y = a + bx

4 Những tình huống khác thường

5 Phân tích dữ liệu gộp lại