Ngày 4: Hồi qui logistic

Việc 1. Đọc dữ liệu ‘Bone data’

df = read.csv("C:\\Thach\\VN trips\\2025_3Jun\\VNUHCM\\Datasets\\Bone data.csv")
dim(df)

## [1] 2162    9

head(df)

##   id    sex age weight height prior.fx fnbmd smoking fx
## 1  1   Male  73     98    175        0  1.08       1  0
## 2  2 Female  68     72    166        0  0.97       0  0
## 3  3   Male  68     87    184        0  1.01       0  0
## 4  4 Female  62     72    173        0  0.84       1  0
## 5  5   Male  61     72    173        0  0.81       1  0
## 6  6 Female  76     57    156        0  0.74       0  0

Việc 2. Đánh giá mối liên quan giữa hút thuốc và nguy cơ gãy xương

PROMPT: Thực hiện hồi qui logistic đánh giá mối liên quan giữa hút thuốc (smoking) và nguy cơ gãy xương (fx)

model <- glm(fx ~ smoking, data = df, family = binomial)
summary(model)

## 
## Call:
## glm(formula = fx ~ smoking, family = binomial, data = df)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.03006    0.06442 -15.990   <2e-16 ***
## smoking     -0.13796    0.10081  -1.368    0.171    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2441.4  on 2161  degrees of freedom
## Residual deviance: 2439.5  on 2160  degrees of freedom
## AIC: 2443.5
## 
## Number of Fisher Scoring iterations: 4

exp(cbind(Odds_Ratio = coef(model), confint(model)))

## Waiting for profiling to be done...

##             Odds_Ratio     2.5 %    97.5 %
## (Intercept)  0.3569869 0.3142326 0.4045364
## smoking      0.8711365 0.7144024 1.0608018

#library(epiDisplay)
#logistic.display(model)

Việc 3. Đánh giá mối liên quan độc lập giữa hút thuốc và nguy cơ gãy xương

PROMPT: Y văn ghi nhận giới tính (sex) là yếu tố gây nhiễu. Bạn thực hiện mô hinh hồi qui logistic đa biến đánh giá mối liên quan độc lập giữa hút thuốc và nguy cơ gãy xương

model <- glm(fx ~ smoking + sex, data = df, family = binomial)
summary(model)

## 
## Call:
## glm(formula = fx ~ smoking + sex, family = binomial, data = df)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -0.85598    0.06835 -12.523  < 2e-16 ***
## smoking      0.09872    0.10724   0.921    0.357    
## sexMale     -0.78880    0.11493  -6.863 6.73e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2441.4  on 2161  degrees of freedom
## Residual deviance: 2389.6  on 2159  degrees of freedom
## AIC: 2395.6
## 
## Number of Fisher Scoring iterations: 4

exp(cbind(Odds_Ratio = coef(model), confint(model)))

## Waiting for profiling to be done...

##             Odds_Ratio     2.5 %    97.5 %
## (Intercept)  0.4248646 0.3711574 0.4852461
## smoking      1.1037584 0.8942327 1.3617209
## sexMale      0.4543898 0.3619039 0.5680105

Việc 4. Đánh giá tầm quan trọng của biến số

PROMPT 1: Giả sử là mô hình dự báo nguy cơ gãy xương gồm tuổi (age) giới tính (sex), mật độ xương ở cổ xương đùi (fnbmd) và cân nặng (weight). Bạn dùng gói lệnh ‘caret’ đánh giá tầm quan trọng tương đối (relative importance) của các biến số dự báo trên

# 1. Gọi gói cần thiết
library(caret)

## Loading required package: ggplot2

## Loading required package: lattice

# 2. Huấn luyện mô hình logistic (glm)
model_glm <- glm(fx ~ age + sex + fnbmd + weight, data = df, family = binomial)

# 3. Đánh giá tầm quan trọng
importance <- varImp(model_glm, scale = TRUE)
importance

##           Overall
## age     2.5112611
## sexMale 2.3022178
## fnbmd   8.7193666
## weight  0.8239425

Việc 5. Xây dựng mô hình dự báo nguy cơ gãy xương

5.1 Tìm mô hình tối ưu bằng pp BMA

PROMPT: Xây dựng mô hình tối ưu dự báo gãy xương từ những biến số như tuổi (age), giới tính (sex), cân nặng (weight), chiều cao (height), mật độ xương (fnbmd), hút thuốc là (smoking) và tiền căn gãy xương (prior.fx). Dùng phương pháp Bayesian Model Averaging từ gói lệnh BMA

library(BMA)

## Loading required package: survival

## 
## Attaching package: 'survival'

## The following object is masked from 'package:caret':
## 
##     cluster

## Loading required package: leaps

## Loading required package: robustbase

## 
## Attaching package: 'robustbase'

## The following object is masked from 'package:survival':
## 
##     heart

## Loading required package: inline

## Loading required package: rrcov

## Scalable Robust Estimators with High Breakdown Point (version 1.7-4)

# Lọc các biến liên quan và loại NA

df_bma <- na.omit(df[, c("fx", "age", "sex", "weight", "height", "fnbmd", "smoking", "prior.fx")])

# Mô hình BMA logistic
bma_model <- bic.glm(
  x = df_bma[, c("age", "sex", "weight", "height", "fnbmd", "smoking", "prior.fx")],
  y = df_bma$fx,
  glm.family = binomial()
)
summary(bma_model)

## 
## Call:
## bic.glm.data.frame(x = df_bma[, c("age", "sex", "weight", "height",     "fnbmd", "smoking", "prior.fx")], y = df_bma$fx, glm.family = binomial())
## 
## 
##   4  models were selected
##  Best  4  models (cumulative posterior probability =  1 ): 
## 
##            p!=0    EV        SD        model 1     model 2     model 3   
## Intercept  100     2.249962  0.674258   2.509e+00   2.340e+00   1.140e+00
## age         16.2   0.002663  0.006838       .           .       1.602e-02
## sex         18.2  -0.048048  0.114551       .      -2.578e-01       .    
## weight       0.0   0.000000  0.000000       .           .           .    
## height       0.0   0.000000  0.000000       .           .           .    
## fnbmd      100.0  -4.487636  0.436674  -4.595e+00  -4.279e+00  -4.302e+00
## smoking      0.0   0.000000  0.000000       .           .           .    
## prior.fx   100.0   0.530729  0.134289   5.306e-01   5.445e-01   5.156e-01
##                                                                          
## nVar                                      2           3           3      
## BIC                                    -1.402e+04  -1.402e+04  -1.402e+04
## post prob                               0.696       0.142       0.122    
##            model 4   
## Intercept   7.978e-01
## age         1.780e-02
## sex        -2.851e-01
## weight          .    
## height          .    
## fnbmd      -3.918e+00
## smoking         .    
## prior.fx    5.296e-01
##                      
## nVar          4      
## BIC        -1.402e+04
## post prob   0.040

imageplot.bma(bma_model)

5.2 Mô hình tối ưu

df_bma$fnbmd.sd = df_bma$fnbmd/0.15
bma_best = glm(fx ~ fnbmd.sd + prior.fx, family = binomial, data = df_bma)
exp(cbind(Odds_Ratio = coef(bma_best), confint(bma_best)))

## Waiting for profiling to be done...

##             Odds_Ratio     2.5 %    97.5 %
## (Intercept) 12.2977330 6.6858383 22.888616
## fnbmd.sd     0.5019265 0.4467839  0.562099
## prior.fx     1.6999821 1.3051619  2.207473

Ứng dụng Phân tích Dữ liệu với R - ĐHQG TPHCM (16- 19/6/2025)

Thach Tran

2025-06-02