2025-05-14
Các loại thang đo cơ bản:
Dấu hiệu nhận biết:
Tham số chính:
Một số ví dụ:
Hàm xác suất (Probability Mass Function - PMF):
Xác suất để có đúng \(k\) sự kiện xảy ra trong khoảng đã cho là:
\[P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}\]
Trong đó:
Đặc điểm quan trọng:
Ứng dụng trong kinh tế và kinh doanh:
Kiểm định phân phối poisson
Điều kiện của một Phép thử Bernoulli:
Tham số chính:
Một số ví dụ
Hàm xác suất (Probability Mass Function - PMF):
Xác suất để có đúng \(k\) lần thành công trong \(n\) phép thử là:
\[P(X=k) = C(n, k) \cdot p^k \cdot (1-p)^{n-k} = \binom{n}{k} p^k q^{n-k}\]
Trong đó:
Đặc điểm quan trọng:
Ứng dụng trong kinh tế và kinh doanh:
Trường hợp 1: \(n=10, p=0.2\) (Lệch phải)
Trường hợp 2: \(n=10, p=0.5\) (Đối xứng)
Trường hợp 3: \(n=20, p=0.8\) (Lệch trái, xấp xỉ Chuẩn)
X | PurchaseDate | CustomerID | Gender | MaritalStatus | Homeowner | Children | AnnualIncome | City | StateorProvince | Country | ProductFamily | ProductDepartment | ProductCategory | UnitsSold | Revenue |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2007-12-18 | 7223 | F | S | Y | 2 | $30K - $50K | Los Angeles | CA | USA | Food | Snack Foods | Snack Foods | 5 | 27.38 |
2 | 2007-12-20 | 7841 | M | M | Y | 5 | $70K - $90K | Los Angeles | CA | USA | Food | Produce | Vegetables | 5 | 14.90 |
3 | 2007-12-21 | 8374 | F | M | N | 2 | $50K - $70K | Bremerton | WA | USA | Food | Snack Foods | Snack Foods | 3 | 5.52 |
4 | 2007-12-21 | 9619 | M | M | Y | 3 | $30K - $50K | Portland | OR | USA | Food | Snacks | Candy | 4 | 4.44 |
5 | 2007-12-22 | 1900 | F | S | Y | 3 | $130K - $150K | Beverly Hills | CA | USA | Drink | Beverages | Carbonated Beverages | 4 | 14.00 |
6 | 2007-12-22 | 6696 | F | M | Y | 3 | $10K - $30K | Beverly Hills | CA | USA | Food | Deli | Side Dishes | 3 | 4.37 |
Là bảng tần số của 2 biến ngẫu nhiên định tính \(X, Y\). Các biểu hiện của biến phụ thuộc (respone variable) được xắp xếp trên hàng và các biểu hiện của biến độc lập (predictor variable) được xắp xếp trên cột. \[ \begin{array}{|c|c|c|c|c|} \hline \text{X \ Y} & A_1 & A_2 & \dots & A_n \\ \hline B_1 & f_{11} & f_{12} & \dots & f_{1n} \\ \hline B_2 & f_{21} & f_{22} & \dots & f_{2n} \\ \hline \dots & \dots &\dots &\dots &\dots \\ \hline B_m & f_{m1} & f_{m2} & \dots & f_{mn} \\ \hline \end{array} \] Nếu các biến \(X,Y\) chỉ có 2 biểu hiện khi đó bảng ngẫu nhiên 2 chiều sẽ trở thành: \[ \begin{array}{|c|c|c|c|c|} \hline \text{X \ Y} & A_1 & A_2 \\ \hline B_1 & f_{11} & f_{12}\\ \hline B_2 & f_{21} & f_{22}\\ \hline \end{array} \]
Bảng tần số của biến Gender
Gender | Freq |
---|---|
F | 7170 |
M | 6889 |
Bảng tần số và tần suất cho biến Gender và biến MaritalStatus
M S
F 3602 3568
M 3264 3625
M S
F 0.2562 0.2538
M 0.2322 0.2578
Bảng tần suất là ước lượng cho bảng phân phối xác suất đồng thời.
Phân phối biên của biến Gender và biến Maritalstatus.
M S
F 3602 3568
M 3264 3625
M S Sum
F 3602 3568 7170
M 3264 3625 6889
Sum 6866 7193 14059
M S
F 0.2562 0.2538
M 0.2322 0.2578
M S Sum
F 0.2562 0.2538 0.5100
M 0.2322 0.2578 0.4900
Sum 0.4884 0.5116 1.0000
Từ bảng phân phối xác suất đồng thời này ta có bảng phân phối biên cho biến Gender và biến Maritalstatus như sau:
\[ \begin{array}{|c|c|c|c|c|} \hline \text{Gender} & F & M \\ \hline P & 0.51 & 0.49\\ \hline \end{array} \] \[ \begin{array}{|c|c|c|c|c|} \hline \text{Maritalstatus} & M & S \\ \hline P & 0.4884 & 0.5116\\ \hline \end{array} \]
Ký hiệu \(\pi_i\) là tỷ lệ (xác suất) “thành công” của biến phụ thuộc (outcome variable) tương ứng với từng biểu hiện của biến độc lập (predictor variable).
Từ bảng tần xuất, chúng ta tính \(\frac{\pi_1}{\pi_2}\), phân số này gọi là Rủi ro tương đối (Relative risk) giữa 2 biểu hiện khác nhau của biến phụ thuộc. \[RR= \frac{\pi_1}{\pi_2}=\frac{n_{11}/(n_{11}+n_{12})}{n_{21}/(n_{21}+n_{22})}\]
M S Sum
N 1719 3896 5615
Y 5147 3297 8444
Sum 6866 7193 14059
[1] 0.5023
\[log\left(\frac{\pi_1}{\pi_2}\right) = log\left(\frac{f_1}{f_2}\right)\pm Z_{\alpha/2}\sqrt{\frac{1-f_1}{n_{1+}\times f_1}+\frac{1-f_2}{n_{2+}\times f_2}}\]
Kết quả:
M S
N 1719 3896
Y 5147 3297
rel. risk lwr.ci upr.ci
0.5023 0.4810 0.5241
Odd (tỷ lệ cược) của biểu hiện thứ \(i\) được định nghĩa: \[odd_i = \frac{\pi_i}{1-\pi_i} \tag{1}\] Với \(\pi_i\) là xác suất thành công của biểu hiện thứ \(i\). Từ công thức (1) chúng ta có:
M S Sum
N 1719 3896 5615
Y 5147 3297 8444
Sum 6866 7193 14059
\[odd_1 = \frac{1719/5615}{3896/5615}=\frac{1719}{3896} = ; odd_2 = \frac{5147}{3297}\]
Tỷ lệ chênh (Odds ratio): \[\theta= \frac{odd_1}{odd_2} = \frac{\pi_1(1-\pi_2)}{\pi_2(1-\pi_1)}\]
\[log(\hat{\theta}) - u_{\alpha/2}\times ASE(log(\hat{\theta}))\le log(\theta) \le log(\hat{\theta}) + u_{\alpha/2}\times ASE(log(\hat{\theta}))\] với \[ASE(log(\hat{\theta}))=\sqrt{\frac{1}{n_{11}} +\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}}\]
(Cho biến định danh)
Có 2 biến định tính \(X,Y\), lập bảng tần số cho 2 biến này.
trong đó:
M S
N 1719 3896
Y 5147 3297
Pearson's Chi-squared test with Yates' continuity correction
data: tmp
X-squared = 1241, df = 1, p-value <2e-16
(Cho biến thứ bậc)
(Maximum Likelihood)
\(Y\) là biến ngẫu nhiên với phân phối đã biết và có tham số là \(\theta\). \(\{Y_1,Y_2,\dots,Y_n\}\) là mẫu tổng quát và \(\{y_1,y_2,\dots,y_n\}\) là mẫu cụ thể.
Khi đó hàm hợp lý: \[L(\theta) = P(Y_1 = y_1,Y_2 = y_2,\dots,Y_n=y_n)\tag{2}=\Pi_{i=1}^nP(Y_i=y_i)\] Chúng ta sẽ tìm giá trị của \(\theta\) sao cho (2) đạt giá trị cực đại.
Lưu ý:
Ví dụ: Ước lượng tỷ lệ sinh viên UFM có tập thể dục. Tập thể dục được định nghĩa như sau: Có chơi ít nhất 1 môn thể thao trong nhà hoặc ngoài trời ít nhất 3 lần mỗi tuần, mỗi lần ít nhất 30 phút.
Giả sử khảo sát 30 SV và thu được dãy số liệu sau: ()
Dùng phương pháp hợp lý tối đa để tính tỷ lệ này.
Giải
Hàm hợp lý: \[ \begin{align*} L(\hat{p}) & = \Pi_{i=1}^{30}P(Y_i=y_i)\\ & =\Pi_{i=1}^{30}\hat{p}^{x_i}(1-\hat{p})^{1-x_i}\\ & = \hat{p}^{\sum_{i=1}^{30}x_i}(1-\hat{p})^{n-\sum_{i=1}^{30}x_i} \end{align*} \] Lấy logarit \[lnL(\hat{p}) = \left(\sum x_i\right)ln(\hat{p})+\left(1-\sum x_i \right)ln(1-\hat{p})\] Đạo hàm theo \(\hat{p}\): \[\frac{\partial{lnL(\hat{p})}}{\partial{\hat{p}}}=\frac{\sum x_i}{\hat{p}} - \frac{1-\sum x_i}{1-\hat{p}} = 0\] \[\Leftrightarrow \sum x_i-n\hat{p} = 0\] \[\Leftrightarrow \hat{p} = \frac{\sum x_i}{n}\]
(General Linear Modle - GLM)
Với \(Y\) là biến phụ thuộc và \(\{X_1,X_2,\dots,X_k\}\) là các biến độc lập, thì mô hình tuyến tính tổng quát là:
\[g(\mu) = \beta_0+\beta_1X_1+\beta_2X_2 +\dots +\beta_kX_k \tag{1}\] Các thành phần cơ bản của GLM
Biến nhị phân \(Y\) hay còn gọi là biến Bernoulli, là biến ngẫu nhiên chỉ nhận 2 giá trị, 0 và 1.
Đặt \(P(Y=1) = \pi\). Khi đó \(Y\) có bảng phân phối xác suất là: \[ \begin{array}{|c|c|c|} \hline Y & 0 & 1 \\ \hline P & 1-\pi & \pi \\ \hline \end{array} \]
Với kỳ vọng và phương sai tương ứng là: \(E(Y) = \pi, Var(Y) = \pi(1-\pi)\)
Linear Probability Model
Giả sử \(Y\) là biến định tính có 2 biểu hiện, \(X\) (có thể là định tính hoặc định lượng) là biến tác động lên \(Y\). Đặt \(P(Y=1) = \pi\).
\(Y \sim X\)
\(Y = f(X) = \beta_0 +\beta_1X\)
\(E(Y|X) \equiv\mu = f(X)=\beta_0 +\beta_1X\)
\(g(\mu) = f(X)=\beta_0 +\beta_1X\)
\[g(\pi)=\pi = \beta_0 + \beta_1x \tag{2}\]
Chúng ta sẽ dùng ML để ước lượng \(\beta_0,\beta_1\) cho (2).
Với bộ dữ liệu \(Y=\{y_1,y_2,\dots,y_n\}, X = \{x-1,x_2,\dots,x_n\}\) hàm hợp lý: \[ \begin{align*} L(\beta_0,\beta_1)&= \Pi_{i=1}^n P(Y_i=y_i|x_i)\\ &= \Pi_{i=1}^n\hat{\pi}^{y_i}(1-\hat{\pi})^{1-y_i}\\ &=\Pi_{i=1}^n(\hat{\beta}_0+\hat{\beta}_1x_i)^{y_i}(1-\hat{\beta}_0+\hat{\beta}_1x_i)^{1-y_i} \end{align*} \] Lấy logarit:
\[ \begin{align*} lnL(\hat{\beta}_0,\hat{\beta}_1)&=ln\left(\Pi_{i=1}^n(\hat{\beta}_0+\hat{\beta}_1x_i)^{y_i}(1-\hat{\beta}_0+\hat{\beta}_1x_i)^{1-y_i}\right)\\ &= \sum_{i=1}^n\left(ln(y_i)(\hat{\beta}_0+\hat{\beta}_1x_i) + ln(1-y_i)(1-\hat{\beta}_0-\hat{\beta}_1x_i)\right)\\ \end{align*} \] Cực trị cho hàm số này:
\[ \left\{ \begin{array}{l} \frac{\partial lnL(\hat{\beta}_0,\hat{\beta}_1)}{\partial\hat{\beta}_0}&= 0\\ \frac{\partial lnL(\hat{\beta}_0,\hat{\beta}_1)}{\partial\hat{\beta}_1}&= 0 \end{array} \right. \]
\[ \left\{ \begin{array}{l} n&\hat{\beta}_0&+&\left(\sum_{i = 1}^{n}x_i\right)\hat{\beta}_1 &= \sum_{i = 1}^{n} y_i\\ \left(\sum_{i = 1}^{n}x_i\right)&\hat{\beta}_0 &+ &\left(\sum_{i = 1}^{n}x_i^2\right)\hat{\beta}_1 &= \sum_{i = 1}^{n} x_i y_i \end{array} \right. \] Lưu ý: Đây cũng là hệ số hồi quy của hàm hồi quy tuyến tính được ước lượng bởi phương pháp OLS.
ví dụ:
library(tidyverse)
tmp <- d %>% select(Homeowner,AnnualIncome)
tmp <- tmp %>% mutate(HomeownerC = if_else(Homeowner =='Y',1,0))
tmp <- tmp %>% mutate(AnnualIncomeC = case_when(
AnnualIncome == '$10K - $30K'~20,
AnnualIncome == '$30K - $50K'~40,
AnnualIncome == '$50K - $70K'~60,
AnnualIncome == '$70K - $90K'~80,
AnnualIncome == '$90K - $110K'~100,
AnnualIncome == '$110K - $130K'~120,
AnnualIncome == '$130K - $150K'~140,
AnnualIncome == '$150K +'~160))
lpm.OLS <- lm(HomeownerC ~ AnnualIncomeC, data = tmp)
lpm.ML <- glm(HomeownerC ~ AnnualIncomeC, data = tmp)
Kết quả:
Call:
lm(formula = HomeownerC ~ AnnualIncomeC, data = tmp)
Coefficients:
(Intercept) AnnualIncomeC
0.46525 0.00234
Call: glm(formula = HomeownerC ~ AnnualIncomeC, data = tmp)
Coefficients:
(Intercept) AnnualIncomeC
0.46525 0.00234
Degrees of Freedom: 14058 Total (i.e. Null); 14057 Residual
Null Deviance: 3370
Residual Deviance: 3270 AIC: 19400
Khi hàm liên kết có dạng \(g(\mu) =logit(\mu)=ln\left( \frac{\mu}{1-\mu}\right)\), mô hình hồi quy \[ln\left(\frac{\mu}{1-\mu}\right) = ln\left(\frac{\pi}{1-\pi}\right)= logit(\pi)= \beta_0+\beta_1x\] Được gọi là mô hình logit.
Lưu ý: \(Y\) là biến nhị phân thì \(E(Y)=\pi\) với \(\pi=P(Y=\) “thành công”\()\).
Thực hiện lại ví dụ trên nhưng với mô hình logit;
Kết quả của hàm hồi quy:
Call: glm(formula = Homeowner ~ AnnualIncomeC, family = binomial(link = "logit"),
data = tmp)
Coefficients:
(Intercept) AnnualIncomeC
0.1849 -0.0106
Degrees of Freedom: 14058 Total (i.e. Null); 14057 Residual
Null Deviance: 18900
Residual Deviance: 18500 AIC: 18500
Vậy mô hình logit: \[ln\left(\frac{\hat{\pi}}{1-\hat{\pi}}\right)= 0.1849 + -0.0106\times AnnualIncome\]
Khi hàm liên kết có dạng: \(g(\mu) =g(\pi) = probit(\pi)=\Phi^{-1}(\pi)\). Với \(\Phi(t) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^te^{-\frac{t^2}{2}}dt\), hoặc có thể viết lại như sau: \[\pi(x) = \Phi(\beta_0+\beta_1x)\] Thực hiện lại ví dụ trên với mô hình Probit:
Kết quả của hàm hồi quy:
Call: glm(formula = Homeowner ~ AnnualIncomeC, family = binomial(link = "probit"),
data = tmp)
Coefficients:
(Intercept) AnnualIncomeC
0.11285 -0.00653
Degrees of Freedom: 14058 Total (i.e. Null); 14057 Residual
Null Deviance: 18900
Residual Deviance: 18500 AIC: 18500
Vậy mô hình probit: \[\hat{\pi}= \Phi(0.1128 + -0.0065\times AnnualIncome)\]
Mô hình xác suất tuyến tính
Mô hình logistic
1 2 3 4 5 6 7 8
0.4762 0.4571 0.4188 0.3672 0.3359 0.3060 0.2776 0.2169
1 2 3 4 5 6 7 8
-0.09507 -0.17220 -0.32752 -0.54411 -0.68146 -0.81882 -0.95617 -1.28370
AnnualIncomeC
1 0.33122
2 0.25409
3 0.09878
4 -0.11782
5 -0.25517
6 -0.39252
7 -0.52987
8 -0.85741
attr(,"constant")
[1] -0.4263
[1] 18483
[1] 19409
[1] 0.233
[1] 0.2328
Confusion Matrix and Statistics
Reference
Prediction FALSE TRUE
FALSE 420 1869
TRUE 5195 6575
Total n : 14'059
Accuracy : 0.498
95% CI : (0.489, 0.506)
No Information Rate : 0.601
P-Value [Acc > NIR] : 1.0000
Kappa : -0.163
Mcnemar's Test P-Value : < 2.2e-16
Sensitivity : 0.075
Specificity : 0.779
Pos Pred Value : 0.183
Neg Pred Value : 0.559
Prevalence : 0.399
Detection Rate : 0.163
Detection Prevalence : 0.030
Balanced Accuracy : 0.427
F-val Accuracy : 0.106
Matthews Cor.-Coef : -0.194
'Positive' Class : FALSE
\[\hat{\beta}_j-z_{\alpha/2}se(\hat{\beta}_j) \le \beta_j \le \hat{\beta}_j+z_{\alpha/2}se(\hat{\beta}_j)\]
Xét:
Gọi \(X_k\) là số lần xuất hiện khả năng thứ \(k\) trong \(n\) lần thử, khi đó \(X\) được gọi là có phân phối đa thức và được ký hiệu là: \[X\sim Mult(n,\pi), \text{với } \pi=\{\pi_1,\pi_2,\dots, \pi_k\}\] khi đó: \[P(X_1=r_1,X_2=r_2,\dots,X_K=r_K)=\frac{n!}{r_1!r_2!\dots r_K!}\pi_1^{r_1}\pi_2^{r_2}\dots\pi_K^{r_K}\]
Multinomial Logistic Regression
Khi biến phụ thuộc (định tính) có \(K\) biểu hiện:
\[\ln\left(\frac{\pi_i}{\pi_K}\right) = \beta_{0i}+\beta_{1i}X, i=1,\dots,K-1\tag{4}\] Từ (4) ta có: \[\pi_i = \pi_Ke^{\beta_{0i} + \beta_{1i}X}, i=1,\dots,K-1 \tag{5}\] Do tổng xác suất là 1 \((\pi_1+\pi_2+\dots + \pi_K =1)\) nên: \[\pi_Ke^{\beta_{01} + \beta_{11}X} + \pi_Ke^{\beta_{02} + \beta_{12}X}+\dots +\pi_K =1\] suy ra: \[\pi_K = \frac{1}{1+\sum_{j=1}^{K-1} e^{\beta_{0j}+\beta_{1j}X}}\]
Thay vào (5): \[\pi_i = \frac{e^{\beta_{0i} + \beta_{1i}X}}{1+\sum_{j=1}^{K-1} e^{\beta_{0j}+\beta_{1j}X}}\]
Ví dụ: Chúng ta sử dụng bộ dữ liệu iris để làm ví dụ
Kết quả:
Call:
vglm(formula = Species ~ Sepal.Length, family = multinomial,
data = iris)
Coefficients:
(Intercept):1 (Intercept):2 Sepal.Length:1 Sepal.Length:2
38.759 12.677 -6.846 -2.031
Degrees of Freedom: 300 Total; 296 Residual
Residual deviance: 182.1
Log-likelihood: -91.03
This is a multinomial logit model with 3 levels
Nghĩa là: \[\ln\left(\frac{\pi_1}{\pi_3}\right) = 38.759-6.846*Sepal.Length\\ \ln\left(\frac{\pi_2}{\pi_3}\right) = 12.677-2.031*Sepal.Length\]
Cho \(X\) là biến ngẫu nhiên, hàm: \[F(x) = P(X\le x)\] được gọi là hàm xác suất tích lũy của \(X\).
Ordinal Logistic Regression
Khi biến phụ thuộc (định tính) có \(K\) biểu hiện, các biểu hiện được xắp xếp theo thứ tự tăng dần:
Từ \((a)\) suy ra: \[P(Y \leq j)=\frac{e^{\beta_{0j}+\beta_{1j}X}}{1+e^{\beta_{0j}+\beta_{1j}X}}\]
Ví dụ:
library(foreign)
d <- read.spss('ologit.sav')
d <- as.data.frame(d)
d$apply <- ordered(d$apply)
d$pared <- factor(d$pared)
d$public <- factor(d$public)
head(d)
apply pared public gpa
1 2 0 0 3.26
2 1 1 0 3.21
3 0 1 1 3.94
4 1 0 0 2.81
5 1 0 0 2.53
6 0 0 1 2.59
Giải thích bộ dữ liệu:
Chạy mô hình:
Kết quả:
Call:
vglm(formula = apply ~ gpa, family = cumulative(parallel = F),
data = d)
Coefficients:
(Intercept):1 (Intercept):2 gpa:1 gpa:2
2.1817 5.4763 -0.6595 -1.0698
Degrees of Freedom: 800 Total; 796 Residual
Residual deviance: 731.6
Log-likelihood: -365.8
Nghĩa là: \[ \ln\left(\frac{P(Y \leq 0)}{P(Y > 0)}\right)=2.1817-0.6595*gpa \\ \ln\left(\frac{P(Y \leq 1)}{P(Y > 1)}\right)=5.4763-1.0698*gpa \]
Poisson regression for count data.
Khi biến phụ thuộc là số lần xuất hiện biến cố mà chúng ta quan tâm trong một đơn vị thời gian, ví dụ:
Nhắc lại phân phối Poisson: \(X \sim P(\mu), E(X) = var(X) = \mu\). Và \[P(X=x) = \frac{e^{-\mu}\mu^x}{x!} \]
\[\ln(\mu) = \beta_0 +\beta_1X \tag{a}\] Từ (a) ta có: \(\mu = e^{\beta_0+\beta_1X}\)
Ví dụ:
Bộ dữ liệu crab:
color spine width satellite weight y
1 3 3 28.3 8 3050 1
2 4 3 22.5 0 1550 0
3 2 1 26.0 9 2300 1
4 4 3 24.8 0 2100 0
5 4 3 26.0 4 2600 1
6 3 3 23.8 0 2100 0
Kết quả thu được là:
Call: glm(formula = satellite ~ width + weight, family = poisson(link = "log"),
data = cr)
Coefficients:
(Intercept) width weight
-1.295211 0.046076 0.000447
Degrees of Freedom: 172 Total (i.e. Null); 170 Residual
Null Deviance: 633
Residual Deviance: 560 AIC: 921
Vậy hàm hồi quy là: \[\ln(\mu) = -1.295211+0.046076\times width+0.000447\times weight\]
Poisson regression for rate data.
Khi dữ liệu đếm (count data) không cùng đơn vị chúng ta cần phải đưa về dạng cùng đơn vị và dùng mô hình:
\[\ln \left(\frac{\mu}{t}\right)=\ln(\mu)-\ln(t) =\beta_0+\beta_1X \tag{b}\] Ví dụ: Bộ dữ liệu cancer
city age pop cases
1 Fredericia 40-54 3059 11
2 Horsens 40-54 2879 13
3 Kolding 40-54 3142 4
4 Vejle 40-54 2520 5
5 Fredericia 55-59 800 11
6 Horsens 55-59 1083 6
Lưu ý: Trong trường hợp này biến phụ thuộc là cases. Nếu để nguyên biến cases để hồi quy thì điều này không hợp lý vì liên quan đến dân số, nên chúng ta phải hồi quy biến phụ thuộc sẽ phải biến đổi thành \(\mu/pop\). Lúc chúng ta sẽ sử dụng mô hình (b).
Xử lý dữ liệu:
Chạy mô hình và kết quả:
Call: glm(formula = cases ~ agecoded, family = poisson(link = "log"),
data = ca, offset = lpop)
Coefficients:
(Intercept) agecoded
-7.9317 0.0521
Degrees of Freedom: 23 Total (i.e. Null); 22 Residual
Null Deviance: 130
Residual Deviance: 55.3 AIC: 156
Vậy hàm hồi quy là: \[\ln(\mu) = ln(pop) + \beta_0 + \beta_1\times agecoded = -7.9317 + 0.0521\times agecoded\]
Chọn một vấn đề hoặc một bộ dữ liệu mà biến phân tích là biến định tính, biến độc lập vừa có biến định tính vừa có biến định lượng. Thực hiện các yêu cầu sau:
Lưu ý: Tất cả các bước đều phải có nhận xét! ## Data https://vincentarelbundock.github.io/Rdatasets/articles/data.html