一、背景与问题引入

1. 被试变异与题目变异的解构

心理学研究中经常使用回归,如混合线性模型(Mixed-Effects Models),来建模数据。研究举例:

年龄(Age, IV)外倾性(Extraversion, DV) 的影响。

需要区分两个层面的变异:

1.1 被试层面 (Participant Level)

  • 被试截距 (Participant Intercept):不同人的基础外向性分数不同(有人天生社牛,有人社恐)。
  • 被试斜率 (Participant Slope):年龄增长对不同人的影响可能不同(文章不讨论此层面的随机斜率)

1.2 题目层面 (Item Level)

  • 题目截距 (Item Intercept = 难度/通俗度)
    • 有些题容易得分(例如:“我喜欢和人说话”),有些题难得分(例如:“我喜欢演讲”)
    • 现状: 这一点传统方法(IRT 或 SEM)能正确处理(通过题目参数或载荷截距)
  • 题目斜率 (Item Slope = 对 IV 的敏感度)
    • 举例:随着年龄增长,“喜欢和人说话”这种温和的社交可能变化不大(Slope \(\approx\) 0);但“喜欢演讲”这种追求刺激的社交可能会急剧下降(Slope < 0)
    • 现状:传统方法通常不会额外处理题目斜率,而是作为固定效应的一部分
    • 核心问题:IV 对不同题目(Items,后文同)的预测力是一样的吗?

2. ANOVA中的交互作用

set.seed(123)
n_subj <- 50
age <- rnorm(n_subj, mean = 20, sd = 10) # IV

# 假设构念由2个题目测量
# Item 1: 随年龄增长稍微增加 (Slope = 0.05)
# Item 2: 随年龄增长显著减少 (Slope = -0.05)
item1_scores <- 0.05 * age + rnorm(n_subj)
item2_scores <- -0.05 * age + rnorm(n_subj)

demo_data <- data.frame(
  ID = rep(1:n_subj, 2),
  Age = rep(age, 2),
  Score = c(item1_scores, item2_scores),
  Item = rep(c("Item 1 (温和社交)", "Item 2 (刺激社交)"), each = n_subj)
)

# 计算聚合分数 (Aggregation)
agg_data <- demo_data %>%
  group_by(ID, Age, Item) %>%
  summarise(Mean_Score = mean(Score))

# --- 统计检验 (ANOVA) ---

# 1. 传统聚合分析:检验 Age 主效应
# 逻辑:如果只看平均分,Age 有影响吗?
model_agg <- lm(Mean_Score ~ Age + Item, data = agg_data)
print(anova(model_agg))
Analysis of Variance Table

Response: Mean_Score
          Df Sum Sq Mean Sq  F value Pr(>F)    
Age        1   0.00   0.000   0.0003 0.9861    
Item       1 148.20 148.196 135.1612 <2e-16 ***
Residuals 97 106.35   1.096                    
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 2. 交互作用分析:检验 Age × Item
# 逻辑:Age 对分数的影响,是否依赖于题目(Item)的不同?
model_inter <- lm(Score ~ Age * Item, data = demo_data)
print(anova(model_inter))
Analysis of Variance Table

Response: Score
          Df  Sum Sq Mean Sq  F value    Pr(>F)    
Age        1   0.000   0.000   0.0004    0.9849    
Item       1 148.196 148.196 161.5947 < 2.2e-16 ***
Age:Item   1  18.314  18.314  19.9703 2.152e-05 ***
Residuals 96  88.040   0.917                       
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# --- 绘图 ---
p1 <- ggplot(demo_data, aes(x = Age, y = Score, color = Item, group = Item)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", se = FALSE, size = 1.5) +
  theme_minimal() +
  labs(title = "真实机制:显著的交互作用 (Interaction)", 
       subtitle = "ANOVA 结果显示 Age:Item 交互项显著\n说明斜率方向随题目而变") +
  theme(legend.position = "bottom")

p2 <- ggplot(agg_data, aes(x = Age, y = Mean_Score)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", color = "black", size = 1.5) +
  theme_minimal() +
  labs(title = "聚合掩盖真相:主效应不显著", 
       subtitle = "ANOVA 结果显示 Age 主效应 p > .05\n错误地得出'年龄无关'的结论")

p1 + p2

  • IV 与 Items 存在明显的交互作用(斜率一正一负)
  • 当交互作用存在,但未被建模时,“主效应”实际上是一个被污染的指标——它要么被相反的斜率中和成了无意义的平均数,要么其显著性检验建立在错误的误差基准之上
  • 如果 IV 与 Items 存在交互作用,但分析时没有建模交互作用,会发生什么?

3. 异质性(Heterogeneity)要求与同质性 (Homogeneity) 的误解

  • 有的研究在设计题目表达概念/构念时,为了高内容效度 (Content Validity),会从不同角度设计题目,例如,测量“外向性”时,需要既有“喜欢派对”的题目,也有“喜欢公开演讲”的题目,这些题目虽然都测外向性,但它们覆盖了构念的不同侧面。这些题目本身存在异质性
  • 题目内部相关高,也不代表它们对外部变量(IV)的反应(Slope)也是一样的
  • 如果量表旨在测量一个宽泛的心理构念(Broad Construct),题目斜率的异质性不仅是统计上的必然,也是理论上的必然

4. 概化理论 (Generalizability Theory) 引发的悖论

4.1 核心前提:题目全域 (Item Universe) 与可交换性

  • 随机抽样假设:为了研究效度,假设被试是从人群中随机抽取的,相似的,量表中的题目也应当被视为从“题目全域”中随机抽取的样本
  • 可交换性 (Exchangeability):既然是随机抽样,那么题目之间应该是“可交换”的,统计结论不应受制于恰好选用了哪几个题目

概化理论认为:为了让结论具有推广性,统计上应假设使用的题目是从一个无限题库 (infinite pool of items) 中随机抽取的,题目斜率应被视作随机效应

4.2 现行做法的“双标”

  1. 对被试 (Participants):承认其随机性,允许不同被试有不同的表现,试图将结论推广到未被测量的总体人群。
  2. 对题目 (Items):目前的模型只允许题目在截距上随机变化(即承认题目有难易之分)。涉及题目与外部变量(IV)的关系(即斜率),传统模型就强行假设所有题目对 IV 的反应是完全一致的(Fixed Slope, \(\beta_1\))。这种做法实际上把固定的几道题目当成了概念/构念全部测量范围 \[ y_{ij} = \beta_0 + u_{0i} + u_{0j} + \beta_1 x_i + \epsilon_{ij} \]

5. 问题出现:现有模型对items随机斜率视而不见

无论是简单的回归(Aggregation)还是复杂的结构方程模型(SEM),都在不同程度上忽视了题目层面的斜率不一致。

5.1 两种忽视的方式

  1. 聚合模型 (Aggregation Regression)
    • 做法:求平均分。
    • 假设:所有题目对构念的贡献相等(权重=1),且对 IV 的反应斜率完全相同。
    • 结果:丢失所有题目特异性信息。
  2. 结构方程模型 (Common Factor / SEM)
    • 做法:潜变量建模。
    • 假设:题目对 IV 的反应必须通过“潜变量”传导。不同题目的斜率被平均了,这种做法假定,若 Item1 的载荷是 Item2 的2倍,那么 Item1 对 IV 的斜率也必须严格是 Item2 的2倍
    • 局限:IV 无法直接与单个 Item 产生独特的交互作用,模型会把这部分本该属于“Random item slope”的变异,错误地当作了单纯的残差

5.2 模型假设对比

# ==========================================
# 1. 数据生成:构造“矛盾”情境
# ==========================================
set.seed(999)
N <- 300
J <- 5
IV <- rnorm(N, 0, 1)

# A. 生成潜变量 (Factor)
# 假设 IV 对潜变量有强正向影响 (Beta = 0.6)
Latent_F <- 0.6 * IV + rnorm(N, 0, 0.8)

# B. 生成题目 (Items)
# 关键点:所有题目在测量模型上都是“好题”(正向载荷),内部一致性高
# y = 1.0 * F + unique_effect + error
sim_data_wide <- data.frame(ID = 1:N, IV = IV)
sim_data_long <- data.frame()

# 题目 1-4:完全听从潜变量指挥
for(j in 1:4){
  y <- 1.0 * Latent_F + rnorm(N, 0, 1) 
  sim_data_wide[[paste0("y", j)]] <- y
  sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item=paste0("Item", j), Score=y))
}

# 题目 5:叛逆者 (Item Specific Effect)
# 它虽然测量同一个潜变量(有 +1.0 * F),但 IV 对它有额外的直接负面打击 (-1.5 * IV)
# 净效应(Net Slope) ≈ 0.6 (from F) - 1.5 (Direct) = -0.9
y5 <- 1.0 * Latent_F - 1.5 * IV + rnorm(N, 0, 1)
sim_data_wide$y5 <- y5
sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item="Item5", Score=y5))


# ==========================================
# 2. 模型拟合
# ==========================================

# --- A. 聚合回归 ---
sim_data_wide$Mean_Score <- rowMeans(sim_data_wide[, paste0("y", 1:5)])
agg_model <- lm(Mean_Score ~ IV, data = sim_data_wide)
agg_intercept <- coef(agg_model)[1]
agg_slope     <- coef(agg_model)[2]

# --- B. SEM (Common Factor) ---
sem_syntax <- '
  F1 =~ y1 + y2 + y3 + y4 + y5
  F1 ~ IV
'
sem_fit <- sem(sem_syntax, data = sim_data_wide, std.lv = TRUE)

# 提取 SEM 隐含的回归线
est <- parameterEstimates(sem_fit)
gamma <- est[est$op == "~" & est$lhs == "F1" & est$rhs == "IV", "est"] # 潜变量斜率
sem_lines <- data.frame()

for(j in 1:5){
  item_name <- paste0("y", j)
  # 截距
  nu <- est[est$op == "~1" & est$lhs == item_name, "est"]
  if(length(nu)==0) nu <- mean(sim_data_wide[[item_name]])
  # 载荷
  lam <- est[est$op == "=~" & est$rhs == item_name, "est"]
  
  # 这里的关键:SEM 强行认为 斜率 = 载荷 * Gamma
  # 因为 y1-y4 都是正相关,Gamma 是正的,且所有题目内部正相关,
  # SEM 会估计出 y5 的载荷也是正的(因为 y5 也受 Latent_F 影响)
  # 于是 SEM 会错误地预测 y5 随着 IV 增加而增加
  implied_slope <- lam * gamma
  
  temp <- data.frame(IV = seq(min(IV), max(IV), length.out=100), Item=paste0("Item", j))
  temp$Score <- nu + implied_slope * temp$IV
  sem_lines <- rbind(sem_lines, temp)
}

# ==========================================
# 3. 绘图对比
# ==========================================


common_theme <- theme_bw() + 
  theme(legend.position = "none", plot.title = element_text(face="bold"))

# Plot 1: Aggregation
p_agg <- ggplot(sim_data_long, aes(x = IV, y = Score)) +
  geom_point(color="grey", alpha=0.3) +
  geom_abline(intercept = agg_intercept, slope = agg_slope, color = "#D55E00", size = 2) +
  labs(title = "1. Aggregation", subtitle = "简单平均,彻底掩盖 Item 5") + 
  ylim(-4, 4) + common_theme

# Plot 2: SEM
p_sem <- ggplot() +
  geom_point(data = sim_data_long, aes(x = IV, y = Score, color = Item), alpha = 0.1) +
  geom_line(data = sem_lines, aes(x = IV, y = Score, color = Item), size = 1.2) +
  labs(title = "2. SEM (Common Factor)", 
       subtitle = "强制一致性:\n由于 Item 5 属于该构念,SEM 强行预测它\n随 IV 增加而增加 (紫色线向上)。\n这与数据事实(散点向下)完全相反") +
  ylim(-4, 4) + common_theme

# Plot 3: Real Data / RIS
p_ris <- ggplot(sim_data_long, aes(x = IV, y = Score, color = Item)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE, size = 1.2) +
  labs(title = "3. Real Data (RIS)", 
       subtitle = "真相:\nItem 5 (紫色) 实际上是负相关的。\n这是 SEM 无法捕捉的特异性斜率。") +
  ylim(-4, 4) + common_theme

p_agg + p_sem + p_ris

my_labels <- c("Item 1", "Item 2", "Item 3", "Item 4", "Item 5", "IV", "Factor")

semPaths(object = sem_fit,
         what = "std",
         whatLabels = "std",
         layout = "tree2",  
         edge.label.cex = 1, 
         rotation = 2,
         nodeLabels = my_labels,
)

title("Common Factor Model (SEM) 路径图", adj = 0.5, line = 2)
mtext("IV 到 Item 5 没有直接路径,必须经过 F1", side = 1, line = 0, cex = 1.2)


二:理论模型——Random Item Slope Regression (RISR)

不仅仅是统计方法的改变,更是测量哲学的改变。

  • Aggregation: 均值就是一切
  • SEM (Common Factor): 认为题目是潜变量的“反映 (Reflective)”。
    • 假设:题目本身没有独立意义,它们只是潜变量的“克隆体”,唯一的区别在于信度(载荷)
  • Random Item Slope Regression (Proposed): 根据概化理论的逻辑,认为题目是构念的“样本 (Sample)”
    • 假设:题目是从一个无限的题库中随机抽取的
    • 推论:每个题目都有其独特的上下文(Context),IV 对不同题目的影响可以完全不同(甚至方向相反),这被视为真实存在的变异,而不是噪音

1. 模型的数学描述

1.1 传统模型 vs. RISR模型

传统聚合回归 (Aggregation Model): 假设题目对 IV 的反应是固定的、一致的。 \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i \]

随机题目斜率回归 (RISR, Equation 4): 假设题目是从题库中随机抽取的,对 IV 的敏感度各不相同。 \[ y_{ij} = \beta_0 + u_{0i} + u_{0j} + (\beta_1 + \mathbf{u_{1j}})x_i + \epsilon_{ij} \]

其中核心差异在于 \(\mathbf{u_{1j}}\)

  • \(u_{1j}\) (Random Item Slope), \(u_{1j} \sim N(0, \tau_{11})\)
    • 题目对 IV 反应的特异性
    • 它代表了题目 \(j\)\(x\) 的敏感程度偏离平均斜率 \(\beta_1\) 多少
    • 对于题目 \(j\) 来说,它真实的斜率是 \((\beta_1 + u_{1j})\)
    • Aggregation/SEM 隐含假设\(u_{1j} = 0\) (即方差 \(\tau_{11} = 0\))
    • RISR 核心假设\(\tau_{11} > 0\),衡量了题目间对 IV 反应的异质性程度
  • \(u_{0i}\) (Random Participant Intercept), \(u_{0i} \sim N(0, \tau_{00}^{(subj)})\)
    • 被试的特异性
    • 比如:张三本身就倾向于打高分,他的 \(u_{0i}\) 就是正的
  • \(u_{0j}\) (Random Item Intercept), \(u_{0j} \sim N(0, \tau_{00}^{(item)})\)
    • 题目的难易度/通俗度
    • 比如:题目 1 措辞很诱人,大家都容易得分,它的 \(u_{0j}\) 就是正的
  • \(\epsilon_{ij}\) (Residual), \(\epsilon_{ij} \sim N(0, \sigma^2)\)

2. 错误建模的统计后果:SE 低估与 t 值膨胀

忽略 \(u_{1j}\) 会导致假阳性(Type I Error),根本原因在于\(t\)值计算错误。

2.1 t 值的计算逻辑

在线性回归中,判断显著性的 \(t\) 值计算公式为: \[ t = \frac{\text{Estimate}}{\text{Standard Error}} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} \]

如果题目本身存在斜率变异(\(\tau_{11} > 0\)),使用了传统模型(忽略它)时,会得到一个被低估的 SE。分母变小 \(\rightarrow\) t 值虚高 \(\rightarrow\) 假阳性(Type I Error)。

2.2 SE 的计算过程

根据论文附录证明,两种模型对 SE 的估计截然不同:

  • 传统模型 (Naive SE): 认为只要增加被试量 \(N\),误差就能无限缩小: \[ SE_{naive} \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x}} \] > 当 \(N \to \infty\)\(SE \to 0\)

  • RISR 模型 (True SE): 引入了题目采样的不确定性(Generalization Error),以下公式由文章中A10变形而来: \[ SE_{true} \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x} + \mathbf{\frac{\tau_{11}}{J}}} \] > 当 \(N \to \infty\),第一项趋近于0,但第二项 \(\frac{\tau_{11}}{J}\) 依然存在

2.3 低估SE的因素

比较 真实模型 SE (RISR) 和 错误模型 SE (Aggregation/Naive) 的比率,比率越大,说明错误模型低估得越严重(即错得越离谱)

由附录 A 的推导可以构造比率 \(K\)

\[ \text{Ratio } K = \frac{SE_{True}}{SE_{Naive}} = \sqrt{1 + \frac{I \cdot \tau_{11} \cdot s_x^2}{\sigma^2 + J \cdot \omega_{00}}} \]

  • 分子\(I\) (被试数), \(\tau_{11}\) (斜率变异), \(s_x^2\) (IV方差)
  • 分母\(\sigma^2\) (残差), \(J\) (题目数), \(\omega_{00}\) (被试截距变异)
  1. 被试数量 (\(I\)) 越多,低估越严重
  2. 题目数量 (\(J\)) 越少,低估越严重
  3. 被试截距变异 (\(\omega_{00}\)) 越小,低估越严重
  4. 应该是残差越小 (\(\sigma^2\) smaller),低估才越严重?

larger underestimation when there is larger residual error variance(?×)


3. 模拟验证:大样本悖论

图解:传统模型(蓝色线),当 \(N=3000\) 时,SE 几乎为 0,此时哪怕 \(\hat{\beta}\) 只有微小的 0.01,计算出的 \(t\) 值也会很大,导致显著的结果。这解释了为什么大数据集特别容易出现 Random Item Slope 导致的假阳性。


4. 为什么常用指标无法诊断?

为什么 Cronbach’s \(\alpha\) 或 SEM 模型拟合(CFI/RMSEA)时没有发现?

4.1 Cronbach’s \(\alpha\) 的盲区

\(\alpha\) 系数反映的是题目分数的内部一致性。 \[ Var(y_{ij}) = \underbrace{\omega_{00}}_{\text{人与人的巨大差异}} + \tau_{00} + \underbrace{\tau_{11}x_i^2}_{\text{微小的斜率差异}} + \sigma^2 \]

\[ \alpha \approx \frac{J \cdot \omega_{00}}{J \cdot \omega_{00} + (\sigma^2 + \tau_{11})} \]

  • 现状:被试间的截距差异(\(\omega_{00}\),即有些人总是分高)通常占据了绝大部分方差。
  • 盲区\(\tau_{11}\)(对 IV 的反应差异)占比很小。\(\alpha\) 主要反映截距的一致性(\(\omega_{00}\)),对斜率层面的异质性(\(\tau_{11}\))不敏感 (Insensitive),Random Item Slope 的存在实际上会增加观察到的总变异,可能微弱地增加 \(\alpha\)

4.2 SEM 拟合指数的欺骗性

Common Factor Regression虽然比聚合回归严谨,它本质上是一个Constrained Model,它强迫所有题目通过潜变量产生联系:

  1. 残差吸收:SEM 将 Random Slope 的变异(\(u_{1j}x_i\))视为随机误差(Residuals, \(\epsilon\))。
  2. 拟合指标假阳性:只要这些变异没有破坏整体的协方差结构(通常确实没有,因为它们是关于斜率的,而不是关于截距的),SEM 的拟合指数(Global Fit Indices)就会出现假阴性,即明明模型设定错了,但 CFI 依然 > 0.95。

实证证据 (Real Data): 论文使用了 \(N=564\) 的真实数据发现,即使 CFI = 0.956, RMSEA = 0.087 这样被认为“可接受”的模型,在使用 RISR 检验后,依然发现了显著的 Random Item Slopes,且推翻了之前的显著性结论。

结论:高信度 (\(\alpha\)) 和高拟合度 (CFI) 不能 作为不存在 Random Item Slope 的证据。


三:实证证据——模拟与真实数据

首先在模拟环境下证明传统模型会犯错,然后在真实环境(实测数据)中证明这种情况确实存在

1. 模拟研究 (Simulation Study)

文章构建了 72 种不同的参数组合,系统改变了样本量 (\(N\))、题目数量 (\(J\)) 和随机斜率的方差大小 (\(\tau_{11}\))。

1.1 核心发现:Type I 错误率膨胀

在模拟中,设定 IV 和 DV 的真实关系为 0 (\(\beta_1 = 0\))。因此,任何“显著”的结果都是假阳性(Type I Error)。

  • 当存在随机题目斜率(\(\tau_{11} > 0\))时,随着样本量 (\(N\)) 的增加,错误率飙升,甚至接近 100%,即大样本悖论
  • 无论样本量多大,错误率始终控制在0.05以下

1.2 微弱的随机题目斜率也影响巨大

模拟显示,即使随机题目斜率的方差非常小(仅占相关误差方差的 0.549%),在大样本下(\(N=1000\))也足以导致传统模型的统计推断失效,说明以往研究中存在普遍的隐患。


2. 真实数据分析 (Real World Data)

作者收集了 \(N=564\) 的数据,使用了心理学常用的量表(如大五人格、自我实现量表等)和反应时任务。

2.1 案例:年龄与自我实现 (Age & Self-Actualization)

一个戏剧性的例子,一项探究“年龄”是否预测“自我实现”得分的研究中。

模型结果对比

传统聚合回归与 RISR 模型的结果中,回归系数 (\(b\)) 是相同的,但标准误 (\(SE\)) 发生了剧烈变化

模型类型 回归系数 (\(\hat{\beta}_1\)) 标准误 (\(SE\)) \(t\) \(p\) 实质结论
Aggregation -0.062 0.015 (被低估) -4.18 < .001 (显著) 年龄越大,自我实现感越低
RISR -0.062 0.032 (已校正) -1.96 .066 (不显著) 年龄与自我实现感无显著关系

RISR 估计出的 \(SE\) 是传统方法的 2 倍多。这直接导致显著性消失,推翻了原有结论。


为什么会有这么大的差异?检查单个题目的斜率有以下发现:

题目类型 代表题目 (Items) 对年龄的反应 (Slope) 心理学解释
驱动因子 (Drivers) Item 8 (“I fear failure”)
Item 14 (““I am bothered by fears of being inadequate”)
强负相关 (随年龄大幅下降) 年龄增长显著降低了“对失败的恐惧”
无关因子 (Neutrals) 大部分其他题目 接近零 或 微弱正相关 年龄对自我实现的其他维度影响甚微

结论:所谓的“显著负相关”完全是由少数几个关于“恐惧”的题目驱动的,RISR 像一把手术刀,切分了构念层面和题目层面的效应。 RISR的分析来看,年龄增长可能只是让人“不再害怕失败”,而不是“自我实现感降低”

2.2 普遍性

在测试的所有 IV-DV 组合中,随机题目斜率普遍存在。在某些情况下,RISR 估计出的随机斜率方差甚至远大于模拟中设定的水平。这表明过去文献中许多“小而显著”的大样本效应,可能只是由于量表中混入了几个对 IV 特别敏感的题目。


四:总结与实际应用

1. 总结讨论 (General Discussion)

1.1 实践建议

  1. 警惕大样本中的微小显著效应:当 \(N\) 很大且效应量很小时,必须考虑题目斜率异质性的影响。
  2. 作为敏感性分析 (Sensitivity Check):不一定要完全抛弃传统方法,但应使用 RISR 验证核心结论是否稳健。
  3. 不要迷信 Fit Indices:CFI 和 Alpha 系数无法诊断这个问题。

2. How to fit RISR

RISR 本质上是一个 交叉分类混合效应模型 (Cross-Classified Mixed-Effects Model)。之所以叫“交叉”,是因为每个被试都回答了所有题目(或大部分),被试和题目不是嵌套关系,而是交叉关系

使用 lme4 包可实现 RISR 模型。 \[\text{Score}_{ij} \sim \beta_0 + (\beta_1 + u_{1j}) \cdot \text{IV}_i + (u_{0i} + u_{0j}) + \epsilon_{ij}\]

lme4语法中的表达:

library(lme4)

risr_model <- lmer(
  Score ~ IV +                # 固定效应:要测的平均关系
    (1 | ID) +                # 随机截距 (被试):每个人基础分不同
    (1 + IV | Item),          # 随机斜率 (题目):关键!允许 IV 对不同 Item 的影响不同
  data = long_data
)

2.1 数据准备

要求长数据格式 (Long Format),每行是一个观察值 single subject answers single item response data in long format

2.2 代码示范

生成模拟数据集,演示“聚合回归”转向“RISR”

library(lme4)
library(broom.mixed)
library(lmerTest) # 计算 p 值

# 1. 传统聚合回归 (Aggregation)
# 需要先计算平均分
agg_df <- sim_data_long %>% 
  group_by(ID, IV) %>% 
  summarise(Mean_Score = mean(Score))
model_agg <- lm(Mean_Score ~ IV, data = agg_df)

# 2. 随机截距模型 (Random Intercept Only)
# 这是很多研究者误用的模型,只考虑了题目难度不同,没考虑斜率不同
model_ri <- lmer(Score ~ IV + (1|ID) + (1|Item), data = sim_data_long)

# 3. 随机题目斜率模型 (RISR - Proposed)
# 允许 (1 + IV | Item)
model_risr <- lmer(Score ~ IV + (1|ID) + (1 + IV | Item), data = sim_data_long)

# --- 提取结果进行对比 ---

# 辅助函数提取系数
get_res <- function(mod, name) {
  if(inherits(mod, "lm")) {
    res <- tidy(mod) %>% filter(term == "IV")
  } else {
    res <- tidy(mod, effects = "fixed") %>% filter(term == "IV")
  }
  res %>% select(estimate, std.error, statistic, p.value) %>% mutate(Model = name)
}

res_table <- rbind(
  get_res(model_agg, "1. Aggregation (OLS)"),
  get_res(model_ri,  "2. Random Intercepts (LMM)"),
  get_res(model_risr,"3. RISR (Proposed)")
)

print(res_table)

2.3 结果解读

  1. Estimate (回归系数)
    • 三个模型的 \(\beta\) 估计值几乎是一样的 (约 0.17)。
    • 原因:RISR 并不改变“平均效应”的估计,它改变的是对这个平均效应“确定性”的判断。
  2. Std.Error (标准误)
    • Aggregation: SE 非常小 (0.05)。因为它认为题目是固定的,样本量 \(N=300\) 足够大。
    • RISR: SE 剧增 (0.24)!因为它意识到 Item 5 和其他 Item 差异巨大,推广到“题库”时充满了不确定性。
  3. P-value (显著性)
    • Aggregation: \(p < .001\) (显著)。这是一个假阳性结论(Type I Error)。
    • RISR: \(p = 0.5\) (不显著)。这是正确的结论——因为题目间极其不一致,无法断言 IV 对该构念有稳定的正向影响。

2.4 RISR 到底看到了什么?

RISR 的强大之处在于它可以估计出每个题目独特的斜率(BLUPs, Best Linear Unbiased Predictions),可以把模型“眼中”的题目斜率画出来。

# 提取随机效应
ranef_data <- ranef(model_risr)$Item
ranef_data$Item <- rownames(ranef_data)
# 固定效应
fixed_slope <- fixef(model_risr)["IV"]
fixed_intercept <- fixef(model_risr)["(Intercept)"]

# 计算每个题目的总斜率 (Fixed + Random)
item_slopes <- ranef_data %>%
  mutate(
    Total_Slope = fixed_slope + IV,
    Total_Intercept = fixed_intercept + `(Intercept)`
  )

# 绘图
ggplot() +
  # 背景:原始数据点
  geom_point(data = sim_data_long, aes(x = IV, y = Score), color = "grey", alpha = 0.1) +
  # 线条:RISR 估计的每道题的回归线
  geom_abline(data = item_slopes, 
              aes(intercept = Total_Intercept, slope = Total_Slope, color = Item),
              size = 1) +
  # 粗黑线:平均效应 (Fixed Effect)
  geom_abline(intercept = fixed_intercept, slope = fixed_slope, 
              color = "black", size = 2, linetype = "dashed") +
  labs(title = "RISR 模型的透视图",
       subtitle = "虚线为平均效应 (不显著),彩色实线为各题目的特定效应。\n模型'看到'了 Item 5 (紫色) 的剧烈反向,因此“惩罚”了整体的显著性。",
       x = "Independent Variable (IV)", y = "Item Score") +
  theme_minimal() +
  theme(legend.position = "right")

传统的 Aggregation 或 SEM 试图寻找一条最能代表所有人的线(虚线)。 而 RISR 承认每一条彩色线的真实性。当彩色线(题目斜率)像这样发散(Heterogeneity)时,RISR 会认为:“虽然平均线是平的或微正的,但由于题目间分歧太大,这个平均结果不可靠。”

3. 结语:何时应该使用 RISR?

Donnellan et al. (2025) 并不建议废除 SEM,而是提出了一种替代视角。

维度 SEM (Common Factor) RISR (Mixed Models)
适用场景 构念定义极其严格,题目必须高度同质 (如智力测验 g 因素) 构念定义宽泛,题目具有异质性 (如外向性:演讲 vs 聊天)
对不一致斜率的处理 视为噪音或模型拟合差 (Bad Fit) 视为真实变异 (Real Variance),并纳入 SE 计算
结论推广性 仅推广到“当前这组题目” 推广到“该构念的所有潜在题目”

RISR “Treat items as random samples, not fixed indicators.”

RISR 并不是要否定过去的所有研究,而是提醒研究者在处理异质性题目大样本数据时,需要更加谦卑地对待统计推断的不确定性。当声称发现了一个关于“构念”的真理时,要确保这个真理不是仅由其中一两个题目驱动的。

一点点小延伸

  • 聚合模型 (Aggregation) 建模过程是有损压缩 (Lossy Compression)的,在这个压缩过程中丢弃了 \(J-1\) 个维度的信息,人为地平滑了数据,降低了数据的熵 (Entropy)
  • RISR 模型保留 \(N \times J\) 的完整数据结构,不进行预先压缩,不仅读取了“均值”(主效应),还读取了“差异”(异质性)

Thank you!

---
title: 'Random Item Slope Regression'
author: "滕晗"
date: "2025-12-03"
output:
  html_notebook:
    theme: flatly
    toc: true
    toc_float:
      collapsed: false
      smooth_scroll: true
    code_folding: show
    
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, message = FALSE, warning = FALSE)
library(ggplot2)
library(dplyr)
library(tidyr)
library(patchwork)
library(lavaan)
library(semPlot)
library(gridExtra)
```

# 一、背景与问题引入

## 1. 被试变异与题目变异的解构

心理学研究中经常使用回归，如混合线性模型（Mixed-Effects Models），来建模数据。研究举例：

**年龄(Age, IV)** 对 **外倾性(Extraversion, DV)** 的影响。

需要区分两个层面的变异：

### 1.1 被试层面 (Participant Level)

-   **被试截距 (Participant Intercept)**：不同人的基础外向性分数不同（有人天生社牛，有人社恐）。
-   **被试斜率 (Participant Slope)**：年龄增长对不同人的影响可能不同（文章不讨论此层面的随机斜率）

### 1.2 题目层面 (Item Level)

-   **题目截距 (Item Intercept = 难度/通俗度)**：
    -   有些题容易得分（例如：“我喜欢和人说话”），有些题难得分（例如：“我喜欢演讲”）
    -   *现状：* 这一点传统方法（IRT 或 SEM）能正确处理（通过题目参数或载荷截距）
-   **题目斜率 (Item Slope = 对 IV 的敏感度)**：
    -   *举例*：随着年龄增长，“喜欢和人说话”这种温和的社交可能变化不大（Slope $\approx$ 0）；但“喜欢演讲”这种追求刺激的社交可能会急剧下降（Slope \< 0）
    -   *现状*：传统方法通常不会额外处理题目斜率，而是作为固定效应的一部分
    -   **核心问题**：IV 对不同题目(Items，后文同)的预测力是一样的吗？

--------------

## 2. ANOVA中的交互作用

```{r interaction-demo, fig.height=5, fig.width=8}
set.seed(123)
n_subj <- 50
age <- rnorm(n_subj, mean = 20, sd = 10) # IV

# 假设构念由2个题目测量
# Item 1: 随年龄增长稍微增加 (Slope = 0.05)
# Item 2: 随年龄增长显著减少 (Slope = -0.05)
item1_scores <- 0.05 * age + rnorm(n_subj)
item2_scores <- -0.05 * age + rnorm(n_subj)

demo_data <- data.frame(
  ID = rep(1:n_subj, 2),
  Age = rep(age, 2),
  Score = c(item1_scores, item2_scores),
  Item = rep(c("Item 1 (温和社交)", "Item 2 (刺激社交)"), each = n_subj)
)

# 计算聚合分数 (Aggregation)
agg_data <- demo_data %>%
  group_by(ID, Age, Item) %>%
  summarise(Mean_Score = mean(Score))

# --- 统计检验 (ANOVA) ---

# 1. 传统聚合分析：检验 Age 主效应
# 逻辑：如果只看平均分，Age 有影响吗？
model_agg <- lm(Mean_Score ~ Age + Item, data = agg_data)
print(anova(model_agg))

# 2. 交互作用分析：检验 Age × Item
# 逻辑：Age 对分数的影响，是否依赖于题目(Item)的不同？
model_inter <- lm(Score ~ Age * Item, data = demo_data)
print(anova(model_inter))


# --- 绘图 ---
p1 <- ggplot(demo_data, aes(x = Age, y = Score, color = Item, group = Item)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", se = FALSE, size = 1.5) +
  theme_minimal() +
  labs(title = "真实机制：显著的交互作用 (Interaction)", 
       subtitle = "ANOVA 结果显示 Age:Item 交互项显著\n说明斜率方向随题目而变") +
  theme(legend.position = "bottom")

p2 <- ggplot(agg_data, aes(x = Age, y = Mean_Score)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", color = "black", size = 1.5) +
  theme_minimal() +
  labs(title = "聚合掩盖真相：主效应不显著", 
       subtitle = "ANOVA 结果显示 Age 主效应 p > .05\n错误地得出'年龄无关'的结论")

p1 + p2
```

>
- IV 与 Items 存在明显的交互作用（斜率一正一负）
- 当交互作用存在，但未被建模时，“主效应”实际上是一个被污染的指标——它要么被相反的斜率中和成了无意义的平均数，要么其显著性检验建立在错误的误差基准之上
- 如果 IV 与 Items 存在交互作用，但分析时没有建模交互作用，会发生什么？

## 3. 异质性(Heterogeneity)要求与同质性 (Homogeneity) 的误解

- 有的研究在设计题目表达概念/构念时，为了高内容效度 (Content Validity)，会从不同角度设计题目，例如，测量“外向性”时，需要既有“喜欢派对”的题目，也有“喜欢公开演讲”的题目，这些题目虽然都测外向性，但它们覆盖了构念的不同侧面。这些题目本身存在异质性
- 题目内部相关高，也不代表它们对外部变量（IV）的反应（Slope）也是一样的
- 如果量表旨在测量一个宽泛的心理构念（Broad Construct），题目斜率的异质性不仅是统计上的必然，也是理论上的必然

------------------------

## 4. 概化理论 (Generalizability Theory) 引发的悖论

### 4.1 核心前提：题目全域 (Item Universe) 与可交换性

- 随机抽样假设：为了研究效度，假设被试是从人群中随机抽取的，相似的，量表中的题目也应当被视为从“题目全域”中随机抽取的样本
- 可交换性 (Exchangeability)：既然是随机抽样，那么题目之间应该是“可交换”的，统计结论不应受制于恰好选用了哪几个题目

**概化理论**认为：为了让结论具有推广性，统计上应假设使用的题目是从一个**无限题库 (infinite pool of items)** 中随机抽取的，题目斜率应被视作随机效应

### 4.2 现行做法的“双标”
1.  对被试 (Participants)：承认其**随机性**，允许不同被试有不同的表现，试图将结论推广到未被测量的总体人群。
2.  对题目 (Items)：目前的模型只允许题目在**截距**上随机变化（即承认题目有难易之分）。涉及题目与外部变量（IV）的关系（即**斜率**），传统模型就强行假设所有题目对 IV 的反应是完全一致的（Fixed Slope, $\beta_1$）。这种做法实际上把固定的几道题目当成了概念/构念全部测量范围
$$ y_{ij} = \beta_0 + u_{0i} + u_{0j} + \beta_1 x_i + \epsilon_{ij} $$


----------------------

## 5. 问题出现：现有模型对items随机斜率视而不见

无论是简单的回归（Aggregation）还是复杂的结构方程模型（SEM），都在不同程度上忽视了题目层面的斜率不一致。

### 5.1 两种忽视的方式

1.  **聚合模型 (Aggregation Regression)**：
    -   做法：求平均分。
    -   假设：所有题目对构念的贡献相等（权重=1），且对 IV 的反应斜率完全相同。
    -   结果：丢失所有题目特异性信息。
2.  **结构方程模型 (Common Factor / SEM)**：
    -   做法：潜变量建模。
    -   假设：题目对 IV 的反应必须通过“潜变量”传导。不同题目的斜率被平均了，这种做法假定，若 Item1 的载荷是 Item2 的2倍，那么 Item1 对 IV 的斜率也必须严格是 Item2 的2倍
    -   局限：IV 无法**直接**与单个 Item 产生独特的交互作用，模型会把这部分本该属于“Random item slope”的变异，错误地当作了单纯的残差

### 5.2 模型假设对比

```{r simulation-plot, fig.height=5, fig.width=12}
# ==========================================
# 1. 数据生成：构造“矛盾”情境
# ==========================================
set.seed(999)
N <- 300
J <- 5
IV <- rnorm(N, 0, 1)

# A. 生成潜变量 (Factor)
# 假设 IV 对潜变量有强正向影响 (Beta = 0.6)
Latent_F <- 0.6 * IV + rnorm(N, 0, 0.8)

# B. 生成题目 (Items)
# 关键点：所有题目在测量模型上都是“好题”（正向载荷），内部一致性高
# y = 1.0 * F + unique_effect + error
sim_data_wide <- data.frame(ID = 1:N, IV = IV)
sim_data_long <- data.frame()

# 题目 1-4：完全听从潜变量指挥
for(j in 1:4){
  y <- 1.0 * Latent_F + rnorm(N, 0, 1) 
  sim_data_wide[[paste0("y", j)]] <- y
  sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item=paste0("Item", j), Score=y))
}

# 题目 5：叛逆者 (Item Specific Effect)
# 它虽然测量同一个潜变量（有 +1.0 * F），但 IV 对它有额外的直接负面打击 (-1.5 * IV)
# 净效应(Net Slope) ≈ 0.6 (from F) - 1.5 (Direct) = -0.9
y5 <- 1.0 * Latent_F - 1.5 * IV + rnorm(N, 0, 1)
sim_data_wide$y5 <- y5
sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item="Item5", Score=y5))


# ==========================================
# 2. 模型拟合
# ==========================================

# --- A. 聚合回归 ---
sim_data_wide$Mean_Score <- rowMeans(sim_data_wide[, paste0("y", 1:5)])
agg_model <- lm(Mean_Score ~ IV, data = sim_data_wide)
agg_intercept <- coef(agg_model)[1]
agg_slope     <- coef(agg_model)[2]

# --- B. SEM (Common Factor) ---
sem_syntax <- '
  F1 =~ y1 + y2 + y3 + y4 + y5
  F1 ~ IV
'
sem_fit <- sem(sem_syntax, data = sim_data_wide, std.lv = TRUE)

# 提取 SEM 隐含的回归线
est <- parameterEstimates(sem_fit)
gamma <- est[est$op == "~" & est$lhs == "F1" & est$rhs == "IV", "est"] # 潜变量斜率
sem_lines <- data.frame()

for(j in 1:5){
  item_name <- paste0("y", j)
  # 截距
  nu <- est[est$op == "~1" & est$lhs == item_name, "est"]
  if(length(nu)==0) nu <- mean(sim_data_wide[[item_name]])
  # 载荷
  lam <- est[est$op == "=~" & est$rhs == item_name, "est"]
  
  # 这里的关键：SEM 强行认为 斜率 = 载荷 * Gamma
  # 因为 y1-y4 都是正相关，Gamma 是正的，且所有题目内部正相关，
  # SEM 会估计出 y5 的载荷也是正的（因为 y5 也受 Latent_F 影响）
  # 于是 SEM 会错误地预测 y5 随着 IV 增加而增加
  implied_slope <- lam * gamma
  
  temp <- data.frame(IV = seq(min(IV), max(IV), length.out=100), Item=paste0("Item", j))
  temp$Score <- nu + implied_slope * temp$IV
  sem_lines <- rbind(sem_lines, temp)
}

# ==========================================
# 3. 绘图对比
# ==========================================


common_theme <- theme_bw() + 
  theme(legend.position = "none", plot.title = element_text(face="bold"))

# Plot 1: Aggregation
p_agg <- ggplot(sim_data_long, aes(x = IV, y = Score)) +
  geom_point(color="grey", alpha=0.3) +
  geom_abline(intercept = agg_intercept, slope = agg_slope, color = "#D55E00", size = 2) +
  labs(title = "1. Aggregation", subtitle = "简单平均，彻底掩盖 Item 5") + 
  ylim(-4, 4) + common_theme

# Plot 2: SEM
p_sem <- ggplot() +
  geom_point(data = sim_data_long, aes(x = IV, y = Score, color = Item), alpha = 0.1) +
  geom_line(data = sem_lines, aes(x = IV, y = Score, color = Item), size = 1.2) +
  labs(title = "2. SEM (Common Factor)", 
       subtitle = "强制一致性：\n由于 Item 5 属于该构念，SEM 强行预测它\n随 IV 增加而增加 (紫色线向上)。\n这与数据事实(散点向下)完全相反") +
  ylim(-4, 4) + common_theme

# Plot 3: Real Data / RIS
p_ris <- ggplot(sim_data_long, aes(x = IV, y = Score, color = Item)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE, size = 1.2) +
  labs(title = "3. Real Data (RIS)", 
       subtitle = "真相：\nItem 5 (紫色) 实际上是负相关的。\n这是 SEM 无法捕捉的特异性斜率。") +
  ylim(-4, 4) + common_theme

p_agg + p_sem + p_ris
```

```{r sem-path-diagram, fig.height=6, fig.width=8, message=FALSE, warning=FALSE}
my_labels <- c("Item 1", "Item 2", "Item 3", "Item 4", "Item 5", "IV", "Factor")

semPaths(object = sem_fit,
         what = "std",
         whatLabels = "std",
         layout = "tree2",  
         edge.label.cex = 1, 
         rotation = 2,
         nodeLabels = my_labels,
)

title("Common Factor Model (SEM) 路径图", adj = 0.5, line = 2)
mtext("IV 到 Item 5 没有直接路径，必须经过 F1", side = 1, line = 0, cex = 1.2)
```




------------------------------------------------------------------------







# 二：理论模型——Random Item Slope Regression (RISR)

不仅仅是统计方法的改变，更是**测量哲学**的改变。

- **Aggregation**: 均值就是一切
- **SEM (Common Factor)**: 认为题目是潜变量的“反映 (Reflective)”。
    *   假设：题目本身没有独立意义，它们只是潜变量的“克隆体”，唯一的区别在于信度（载荷）
- **Random Item Slope Regression (Proposed)**: 根据概化理论的逻辑，认为题目是构念的“样本 (Sample)”
    *   假设：题目是从一个无限的题库中随机抽取的
    *   推论：每个题目都有其独特的上下文（Context），IV 对不同题目的影响可以完全不同（甚至方向相反），这被视为**真实存在的变异**，而不是噪音


## 1. 模型的数学描述

### 1.1 传统模型 vs. RISR模型

**传统聚合回归 (Aggregation Model)**： 假设题目对 IV 的反应是固定的、一致的。
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

**随机题目斜率回归 (RISR, Equation 4)**： 假设题目是从题库中随机抽取的，对 IV 的敏感度各不相同。 $$ y_{ij} = \beta_0 + u_{0i} + u_{0j} + (\beta_1 + \mathbf{u_{1j}})x_i + \epsilon_{ij} $$


其中核心差异在于 $\mathbf{u_{1j}}$：

-   **$u_{1j}$ (Random Item Slope)**, $u_{1j} \sim N(0, \tau_{11})$：
    *   **题目对 IV 反应的特异性**
    *   它代表了题目 $j$ 对 $x$ 的敏感程度偏离平均斜率 $\beta_1$ 多少
    *   对于题目 $j$ 来说，它真实的斜率是 $(\beta_1 + u_{1j})$
    *   **Aggregation/SEM 隐含假设**：$u_{1j} = 0$ (即方差 $\tau_{11} = 0$)
    *   **RISR 核心假设**：$\tau_{11} > 0$，衡量了题目间对 IV 反应的异质性程度

-   **$u_{0i}$ (Random Participant Intercept)**, $u_{0i} \sim N(0, \tau_{00}^{(subj)})$：
    *   **被试的特异性**
    *   比如：张三本身就倾向于打高分，他的 $u_{0i}$ 就是正的

-   **$u_{0j}$ (Random Item Intercept)**, $u_{0j} \sim N(0, \tau_{00}^{(item)})$：
    *   **题目的难易度/通俗度**
    *   比如：题目 1 措辞很诱人，大家都容易得分，它的 $u_{0j}$ 就是正的

-   **$\epsilon_{ij}$ (Residual)**, $\epsilon_{ij} \sim N(0, \sigma^2)$：


-------------

## 2. 错误建模的统计后果：SE 低估与 t 值膨胀

忽略 $u_{1j}$ 会导致假阳性（Type I Error），根本原因在于$t$值计算错误。

### 2.1 t 值的计算逻辑

在线性回归中，判断显著性的 $t$ 值计算公式为： $$ t = \frac{\text{Estimate}}{\text{Standard Error}} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} $$

如果题目本身存在斜率变异（$\tau_{11} > 0$），使用了传统模型（忽略它）时，会得到一个**被低估的 SE**。分母变小 $\rightarrow$ t 值虚高 $\rightarrow$ 假阳性（Type I Error）。

### 2.2 SE 的计算过程

根据论文附录证明，两种模型对 SE 的估计截然不同：

-   **传统模型 (Naive SE)**： 认为只要增加被试量 $N$，误差就能无限缩小：
$$ SE_{naive} \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x}} $$ \> 当 $N \to \infty$， $SE \to 0$。

-   **RISR 模型 (True SE)**： 引入了题目采样的不确定性（Generalization Error），以下公式由文章中A10变形而来：
$$ SE_{true} \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x} + \mathbf{\frac{\tau_{11}}{J}}} $$ \> 当 $N \to \infty$，第一项趋近于0，但第二项 $\frac{\tau_{11}}{J}$ 依然存在


### 2.3 低估SE的因素

比较 **真实模型 SE** (RISR) 和 **错误模型 SE** (Aggregation/Naive) 的比率，比率越大，说明错误模型低估得越严重（即错得越离谱）

由附录 A 的推导可以构造比率 $K$：

$$
\text{Ratio } K = \frac{SE_{True}}{SE_{Naive}} = \sqrt{1 + \frac{I \cdot \tau_{11} \cdot s_x^2}{\sigma^2 + J \cdot \omega_{00}}}
$$

- **分子**：$I$ (被试数), $\tau_{11}$ (斜率变异), $s_x^2$ (IV方差)
- **分母**：$\sigma^2$ (残差), $J$ (题目数), $\omega_{00}$ (被试截距变异)

1. 被试数量 ($I$) 越多，低估越严重
2. 题目数量 ($J$) 越少，低估越严重 
3. 被试截距变异 ($\omega_{00}$) 越小，低估越严重
4. 应该是残差越小 ($\sigma^2$ smaller)，低估才越严重？

> ~~larger underestimation when there is larger residual error variance(?×)~~

-------

## 3. 模拟验证：大样本悖论

```{r error-inflation-plot, echo=FALSE, fig.height=5, fig.width=9}
# --- 模拟参数设置 ---
N_seq <- seq(50, 3000, by = 50)
J <- 10        # 题目数量固定为10
tau_11 <- 0.05 # 题目斜率变异 (真实存在)
sigma_err <- 1 # 残差

# --- 计算理论 SE ---
# 1. Naive SE (传统模型): 随 N 增加趋近于 0
se_naive <- sqrt(sigma_err / (N_seq * J))

# 2. True SE (RISR): 随 N 增加趋近于 sqrt(tau_11/J)
# 论文公式 A10 的简化版逻辑
se_true  <- sqrt(sigma_err / (N_seq * J) + tau_11 / J)

# --- 构造绘图数据 ---
plot_data <- data.frame(
  N = rep(N_seq, 2),
  SE = c(se_naive, se_true),
  Type = rep(c("传统模型 (Aggregation/SEM)", "RISR 模型 (Proposed)"), each = length(N_seq))
)

# 【关键修改】：显式指定因子水平顺序，确保颜色映射正确
# 顺序：1. 传统模型 (对应第一个颜色 Blue), 2. RISR (对应第二个颜色 Red)
plot_data$Type <- factor(plot_data$Type, 
                         levels = c("传统模型 (Aggregation/SEM)", "RISR 模型 (Proposed)"))

# --- 绘图 ---
ggplot(plot_data, aes(x = N, y = SE, color = Type)) +
  geom_line(size = 1.2) +
  # 绘制 RISR 的极限下限 (Asymptotic Standard Error)
  geom_hline(yintercept = sqrt(tau_11/J), linetype="dashed", color="#D55E00", alpha=0.5) +
  annotate("text", x = 2000, y = sqrt(tau_11/J) + 0.002, 
           label = "无法消除的推广误差 (Generalization Error)", 
           color = "#D55E00", fontface = "bold", vjust = -0.5) +
  # 标注差异区域
  geom_ribbon(aes(ymin = 0, ymax = SE, fill = Type), alpha = 0.1, color = NA) +
  labs(title = "大样本悖论 (The Big N Paradox)",
       subtitle = "蓝色线 (传统模型) 错误地认为增加样本量可以将误差降为0\n红色线 (RISR) 承认题目是有限采样的，SE 会收敛到一个非零的下限",
       y = expression(paste("Standard Error of ", hat(beta)[1])), 
       x = "样本量 (Sample Size, N)") +
  # 强制指定颜色：Level 1 (传统) -> Blue, Level 2 (RISR) -> Red
  scale_color_manual(values = c("#0072B2", "#D55E00")) +
  scale_fill_manual(values = c("#0072B2", "#D55E00")) +
  theme_minimal() +
  theme(legend.position = "bottom", 
        plot.title = element_text(face="bold", size=14))
```

> **图解**：传统模型（蓝色线），当 $N=3000$ 时，SE 几乎为 0，此时哪怕 $\hat{\beta}$ 只有微小的 0.01，计算出的 $t$ 值也会很大，导致显著的结果。这解释了为什么大数据集特别容易出现 Random Item Slope 导致的假阳性。

------------------------------------------------------------------------

## 4. 为什么常用指标无法诊断？

为什么 Cronbach's $\alpha$ 或 SEM 模型拟合（CFI/RMSEA）时没有发现？

### 4.1 Cronbach's $\alpha$ 的盲区

$\alpha$ 系数反映的是题目分数的内部一致性。 
$$ Var(y_{ij}) = \underbrace{\omega_{00}}_{\text{人与人的巨大差异}} + \tau_{00} + \underbrace{\tau_{11}x_i^2}_{\text{微小的斜率差异}} + \sigma^2 $$

$$ \alpha \approx \frac{J \cdot \omega_{00}}{J \cdot \omega_{00} + (\sigma^2 + \tau_{11})} $$

-   **现状**：被试间的截距差异（$\omega_{00}$，即有些人总是分高）通常占据了绝大部分方差。
-   **盲区**：$\tau_{11}$（对 IV 的反应差异）占比很小。$\alpha$ 主要反映截距的一致性（$\omega_{00}$），对斜率层面的异质性（$\tau_{11}$）不敏感 (Insensitive)，Random Item Slope 的存在实际上会增加观察到的总变异，可能*微弱地*增加 $\alpha$

### 4.2 SEM 拟合指数的欺骗性

 **Common Factor Regression**虽然比聚合回归严谨，它本质上是一个**Constrained** Model，它强迫所有题目通过潜变量产生联系：

1.  **残差吸收**：SEM 将 Random Slope 的变异（$u_{1j}x_i$）视为随机误差（Residuals, $\epsilon$）。
2.  **拟合指标假阳性**：只要这些变异没有破坏整体的协方差结构（通常确实没有，因为它们是关于斜率的，而不是关于截距的），SEM 的拟合指数（Global Fit Indices）就会出现**假阴性**，即明明模型设定错了，但 CFI 依然 > 0.95。

**实证证据 (Real Data)**： 论文使用了 $N=564$ 的真实数据发现，即使 **CFI = 0.956, RMSEA = 0.087** 这样被认为“可接受”的模型，在使用 RISR 检验后，依然发现了显著的 Random Item Slopes，且推翻了之前的显著性结论。

> **结论**：高信度 ($\alpha$) 和高拟合度 (CFI) **不能** 作为不存在 Random Item Slope 的证据。


------------------------------------------------------------------------





# 三：实证证据——模拟与真实数据

首先在模拟环境下证明传统模型会犯错，然后在真实环境（实测数据）中证明这种情况确实存在

## 1. 模拟研究 (Simulation Study)

文章构建了 72 种不同的参数组合，系统改变了样本量 ($N$)、题目数量 ($J$) 和随机斜率的方差大小 ($\tau_{11}$)。

### 1.1 核心发现：Type I 错误率膨胀

在模拟中，设定 IV 和 DV 的**真实关系为 0 ($\beta_1 = 0$)**。因此，任何“显著”的结果都是假阳性（Type I Error）。

<img src="figs/fig3.png"/>

- 当存在随机题目斜率（$\tau_{11} > 0$）时，随着样本量 ($N$) 的增加，错误率飙升，甚至接近 100%，即**大样本悖论**
- 无论样本量多大，错误率始终控制在0.05以下

### 1.2 微弱的随机题目斜率也影响巨大
模拟显示，即使随机题目斜率的方差非常小（仅占相关误差方差的 **0.549%**），在大样本下（$N=1000$）也足以导致传统模型的统计推断失效，说明以往研究中存在普遍的隐患。

------------------------------------------------------------------------

## 2. 真实数据分析 (Real World Data)

作者收集了 $N=564$ 的数据，使用了心理学常用的量表（如大五人格、自我实现量表等）和反应时任务。

### 2.1 案例：年龄与自我实现 (Age & Self-Actualization)

一个戏剧性的例子，一项探究“年龄”是否预测“自我实现”得分的研究中。

<img src="figs/fig5-1.png"/>

**模型结果对比**

传统聚合回归与 RISR 模型的结果中，回归系数 ($b$) 是相同的，但标准误 ($SE$) 发生了剧烈变化

| 模型类型 | 回归系数 ($\hat{\beta}_1$) | 标准误 ($SE$) | $t$ 值 | $p$ 值 | 实质结论 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| Aggregation | -0.062 | 0.015 (被低估) | -4.18 | < .001 (显著) | 年龄越大，自我实现感越低 |
| RISR | -0.062 | 0.032 (已校正) | -1.96 | .066 (不显著) | 年龄与自我实现感无显著关系 |

**RISR 估计出的 $SE$ 是传统方法的 2 倍多。这直接导致显著性消失，推翻了原有结论。**

<br>

<img src="figs/fig5-2.png"/>

为什么会有这么大的差异？检查单个题目的斜率有以下发现：

| 题目类型 | 代表题目 (Items) | 对年龄的反应 (Slope) | 心理学解释 |
| :--- | :--- | :--- | :--- |
| 驱动因子 (Drivers) | Item 8 ("I fear failure")<br>Item 14 ("“I am bothered by fears of being inadequate") | 强负相关 (随年龄大幅下降) | 年龄增长显著降低了“对失败的恐惧” |
| 无关因子 (Neutrals) | 大部分其他题目 | 接近零 或 微弱正相关 | 年龄对自我实现的其他维度影响甚微 |

**结论：**所谓的“显著负相关”完全是由少数几个关于“恐惧”的题目驱动的，RISR 像一把手术刀，切分了构念层面和题目层面的效应。
RISR的分析来看，年龄增长可能只是让人“不再害怕失败”，而不是“自我实现感降低”


### 2.2 普遍性
在测试的所有 IV-DV 组合中，随机题目斜率普遍存在。在某些情况下，RISR 估计出的随机斜率方差甚至远大于模拟中设定的水平。这表明过去文献中许多“小而显著”的大样本效应，可能只是由于量表中混入了几个对 IV 特别敏感的题目。


------------------------------------------------------------------------








# 四：总结与实际应用

## 1. 总结讨论 (General Discussion)

### 1.1 实践建议
1.  **警惕大样本中的微小显著效应**：当 $N$ 很大且效应量很小时，必须考虑题目斜率异质性的影响。
2.  **作为敏感性分析 (Sensitivity Check)**：不一定要完全抛弃传统方法，但应使用 RISR 验证核心结论是否稳健。
3.  **不要迷信 Fit Indices**：CFI 和 Alpha 系数无法诊断这个问题。

------------------------------------------------------------------------

## 2. How to fit RISR

RISR 本质上是一个 **交叉分类混合效应模型 (Cross-Classified Mixed-Effects Model)**。之所以叫“交叉”，是因为每个被试都回答了所有题目（或大部分），被试和题目不是嵌套关系，而是交叉关系

使用 `lme4` 包可实现 RISR 模型。
$$\text{Score}_{ij} \sim \beta_0 + (\beta_1 + u_{1j}) \cdot \text{IV}_i + (u_{0i} + u_{0j}) + \epsilon_{ij}$$

在`lme4`语法中的表达：

```r
library(lme4)

risr_model <- lmer(
  Score ~ IV +                # 固定效应：要测的平均关系
    (1 | ID) +                # 随机截距 (被试)：每个人基础分不同
    (1 + IV | Item),          # 随机斜率 (题目)：关键！允许 IV 对不同 Item 的影响不同
  data = long_data
)
```

### 2.1 数据准备
要求**长数据格式 (Long Format)**，每行是一个观察值
single subject answers single item response data in long format

### 2.2 代码示范
生成模拟数据集，演示“聚合回归”转向“RISR”

```{r model-comparison, message=FALSE}
library(lme4)
library(broom.mixed)
library(lmerTest) # 计算 p 值

# 1. 传统聚合回归 (Aggregation)
# 需要先计算平均分
agg_df <- sim_data_long %>% 
  group_by(ID, IV) %>% 
  summarise(Mean_Score = mean(Score))
model_agg <- lm(Mean_Score ~ IV, data = agg_df)

# 2. 随机截距模型 (Random Intercept Only)
# 这是很多研究者误用的模型，只考虑了题目难度不同，没考虑斜率不同
model_ri <- lmer(Score ~ IV + (1|ID) + (1|Item), data = sim_data_long)

# 3. 随机题目斜率模型 (RISR - Proposed)
# 允许 (1 + IV | Item)
model_risr <- lmer(Score ~ IV + (1|ID) + (1 + IV | Item), data = sim_data_long)

# --- 提取结果进行对比 ---

# 辅助函数提取系数
get_res <- function(mod, name) {
  if(inherits(mod, "lm")) {
    res <- tidy(mod) %>% filter(term == "IV")
  } else {
    res <- tidy(mod, effects = "fixed") %>% filter(term == "IV")
  }
  res %>% select(estimate, std.error, statistic, p.value) %>% mutate(Model = name)
}

res_table <- rbind(
  get_res(model_agg, "1. Aggregation (OLS)"),
  get_res(model_ri,  "2. Random Intercepts (LMM)"),
  get_res(model_risr,"3. RISR (Proposed)")
)

print(res_table)
```

### 2.3 结果解读
1.  **Estimate (回归系数)**：
    *   三个模型的 $\beta$ 估计值几乎是一样的 (约 0.17)。
    *   **原因**：RISR 并不改变“平均效应”的估计，它改变的是对这个平均效应“确定性”的判断。

2.  **Std.Error (标准误)**：
    *   **Aggregation**: SE 非常小 (0.05)。因为它认为题目是固定的，样本量 $N=300$ 足够大。
    *   **RISR**: SE 剧增 (0.24)！因为它意识到 Item 5 和其他 Item 差异巨大，推广到“题库”时充满了不确定性。

3.  **P-value (显著性)**：
    *   **Aggregation**: $p < .001$ (**显著**)。这是一个假阳性结论（Type I Error）。
    *   **RISR**: $p = 0.5$ (**不显著**)。这是正确的结论——因为题目间极其不一致，无法断言 IV 对该构念有稳定的正向影响。


### 2.4 RISR 到底看到了什么？

RISR 的强大之处在于它可以估计出每个题目独特的斜率（BLUPs, Best Linear Unbiased Predictions），可以把模型“眼中”的题目斜率画出来。

```{r risr-visualization, fig.height=6, fig.width=8}
# 提取随机效应
ranef_data <- ranef(model_risr)$Item
ranef_data$Item <- rownames(ranef_data)
# 固定效应
fixed_slope <- fixef(model_risr)["IV"]
fixed_intercept <- fixef(model_risr)["(Intercept)"]

# 计算每个题目的总斜率 (Fixed + Random)
item_slopes <- ranef_data %>%
  mutate(
    Total_Slope = fixed_slope + IV,
    Total_Intercept = fixed_intercept + `(Intercept)`
  )

# 绘图
ggplot() +
  # 背景：原始数据点
  geom_point(data = sim_data_long, aes(x = IV, y = Score), color = "grey", alpha = 0.1) +
  # 线条：RISR 估计的每道题的回归线
  geom_abline(data = item_slopes, 
              aes(intercept = Total_Intercept, slope = Total_Slope, color = Item),
              size = 1) +
  # 粗黑线：平均效应 (Fixed Effect)
  geom_abline(intercept = fixed_intercept, slope = fixed_slope, 
              color = "black", size = 2, linetype = "dashed") +
  labs(title = "RISR 模型的透视图",
       subtitle = "虚线为平均效应 (不显著)，彩色实线为各题目的特定效应。\n模型'看到'了 Item 5 (紫色) 的剧烈反向，因此“惩罚”了整体的显著性。",
       x = "Independent Variable (IV)", y = "Item Score") +
  theme_minimal() +
  theme(legend.position = "right")
```

> 传统的 Aggregation 或 SEM 试图寻找一条最能代表所有人的线（虚线）。
> 而 RISR 承认每一条彩色线的真实性。当彩色线（题目斜率）像这样发散（Heterogeneity）时，RISR 会认为：“虽然平均线是平的或微正的，但由于题目间分歧太大，这个平均结果**不可靠**。”


## 3. 结语：何时应该使用 RISR？

Donnellan et al. (2025) 并不建议废除 SEM，而是提出了一种替代视角。

| 维度 | SEM (Common Factor) | RISR (Mixed Models) |
| :--- | :--- | :--- |
| **适用场景** | 构念定义极其严格，题目必须高度同质 (如智力测验 g 因素) | 构念定义宽泛，题目具有异质性 (如外向性：演讲 vs 聊天) |
| **对不一致斜率的处理** | 视为噪音或模型拟合差 (Bad Fit) | 视为真实变异 (Real Variance)，并纳入 SE 计算 |
| **结论推广性** | 仅推广到“当前这组题目” | 推广到“该构念的所有潜在题目” |

> RISR "Treat items as random samples, not fixed indicators."

RISR 并不是要否定过去的所有研究，而是提醒研究者在处理**异质性题目**和**大样本数据**时，需要更加谦卑地对待统计推断的不确定性。当声称发现了一个关于“构念”的真理时，要确保这个真理不是仅由其中一两个题目驱动的。


**一点点小延伸**

- 聚合模型 (Aggregation) 建模过程是有损压缩 (Lossy Compression)的，在这个压缩过程中丢弃了 $J-1$ 个维度的信息，人为地平滑了数据，降低了数据的**熵 (Entropy)**
- RISR 模型保留 $N \times J$ 的完整数据结构，不进行预先压缩，不仅读取了“均值”（主效应），还读取了“差异”（异质性）



------------------------------------------------

# Thank you!
