背景与问题引入

1. 线性模型的数据结构

在心理学研究中,经常使用混合线性模型(Mixed-Effects Models)或类似的思想。假设我们研究 “年龄 (Age, IV)”“外向性 (Extraversion, DV)” 的影响。

我们需要区分两个层面的变异:

1.1 被试层面 (Participant Level)

  • 被试截距 (Participant Intercept):不同人的基础外向性分数不同(有人天生社牛,有人社恐)。
  • 被试斜率 (Participant Slope):年龄增长对不同人的影响可能不同(论文主要讨论被试间设计,不讨论此层面的随机斜率)

1.2 题目层面 (Item Level) —— 本次报告的核心

题目也有其独特的属性,但往往被我们忽略。

  • 题目截距 (Item Intercept = 难度/通俗度)
    • 有些题容易得分(例如:“我喜欢和人说话”)。
    • 有些题难得分(例如:“我喜欢演讲”)。
    • 现状: 这一点传统方法(IRT 或 SEM)处理得很好(通过题目参数或载荷截距)。
  • 题目斜率 (Item Slope = 对 IV 的敏感度)
    • 核心问题:IV 对不同题目的预测力是一样的吗?
    • 举例:随着年龄增长,“喜欢和人说话”这种温和的社交可能变化不大(Slope \(\approx\) 0);但“喜欢演讲”这种追求刺激的社交可能会急剧下降(Slope < 0)。
    • 现状:这是传统方法假设为固定的地方。

2. 未被建模的交互作用方差 (Unmodeled Interaction Variance)

如果存在上述的题目斜率差异(即 IV 与 Items 存在交互作用),但我们在分析时强行忽略它,会发生什么?

set.seed(123)
n_subj <- 50
age <- rnorm(n_subj, mean = 20, sd = 10) # IV

# 假设构念由2个题目测量
# Item 1: 随年龄增长稍微增加 (Slope = 0.05)
# Item 2: 随年龄增长显著减少 (Slope = -0.05)
# 平均效应 (True Effect): 0 (Items 相互抵消)

item1_scores <- 0.05 * age + rnorm(n_subj)
item2_scores <- -0.05 * age + rnorm(n_subj)

demo_data <- data.frame(
  ID = rep(1:n_subj, 2),
  Age = rep(age, 2),
  Score = c(item1_scores, item2_scores),
  Item = rep(c("Item 1 (温和社交)", "Item 2 (刺激社交)"), each = n_subj)
)

# 计算聚合分数 (Aggregation)
agg_data <- demo_data %>%
  group_by(ID, Age) %>%
  summarise(Mean_Score = mean(Score))

# --- 绘图 ---
p1 <- ggplot(demo_data, aes(x = Age, y = Score, color = Item, group = Item)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", se = FALSE, size = 1.5) +
  theme_minimal() +
  labs(title = "真实情况:题目斜率异质性", subtitle = "不同题目对 Age 的反应截然不同") +
  theme(legend.position = "bottom")

p2 <- ggplot(agg_data, aes(x = Age, y = Mean_Score)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", color = "black", size = 1.5) +
  theme_minimal() +
  labs(title = "聚合分析 (Aggregation)", subtitle = "强行平均后,斜率相互抵消,掩盖了真实机制")

p1 + p2

如图所示: 左图中,IV 与 Items 存在明显的交互作用(斜率一正一负)。 右图中,使用聚合(求平均)方法时,这种丰富的交互信息丢失了。这部分未被建模的交互作用方差,在后续统计检验中会被错误地处理。


3. 概化理论 (Generalizability Theory) 的悖论

概化理论认为:为了让结论具有推广性,统计上应假设我们使用的题目是从一个无限题库 (infinite pool of items) 中随机抽取的。这意味着题目应当被视为随机效应 (Random Effect)

在实际数据分析中陷入了一个悖论:

  1. 理论上:承认题目是随机采样的,即应该视作随机效应。

  2. 建模时:未考虑题目的随机效应,变相假定这些Items对 IV 的反应是固定效应(Fixed Effect)。

异质性(Heterogeneity)要求与同质性 (Homogeneity) 的误解

有的研究在设计题目表达概念/构念时,为了高外部效度,会从不同角度设计题目,这些题目本身存在异质性

退一步讲,就算题目是同质的,也只代表它们“长得像”(内部相关高),不代表它们对外部变量(IV)的反应(Slope)也是一样的


4. 问题出现:现有模型的视而不见

无论是简单的回归(Aggregation)还是复杂的结构方程模型(SEM),都在不同程度上抹杀了这种题目层面的斜率不一致。

4.1 两种忽视的方式

  1. 聚合模型 (Aggregation Regression)
    • 做法:求平均分。
    • 假设:所有题目对构念的贡献相等(权重=1),且对 IV 的反应斜率完全相同。
    • 结果:丢失所有题目特异性信息。
  2. 结构方程模型 (Common Factor / SEM)
    • 做法:潜变量建模。
    • 假设:题目对 IV 的反应必须通过“潜变量”传导。这意味着,如果 Item A 的载荷是 Item B 的2倍,那么 Item A 对 IV 的斜率也必须严格是 Item B 的2倍。
    • 局限:IV 无法直接与单个 Item 产生独特的交互作用。模型会把这部分本该属于“Random Slope”的变异,错误地当作了单纯的残差。

4.2 模型假设对比

# ==========================================
# 1. 进阶数据生成:构造“矛盾”情境
# ==========================================
set.seed(999) # 换一个种子确保效果明显
N <- 300
J <- 5
IV <- rnorm(N, 0, 1)

# A. 生成潜变量 (Factor)
# 假设 IV 对潜变量有强正向影响 (Beta = 0.6)
Latent_F <- 0.6 * IV + rnorm(N, 0, 0.8)

# B. 生成题目 (Items)
# 关键点:所有题目在测量模型上都是“好题”(正向载荷),内部一致性高
# y = 1.0 * F + unique_effect + error
sim_data_wide <- data.frame(ID = 1:N, IV = IV)
sim_data_long <- data.frame()

# 题目 1-4:完全听从潜变量指挥
for(j in 1:4){
  y <- 1.0 * Latent_F + rnorm(N, 0, 1) 
  sim_data_wide[[paste0("y", j)]] <- y
  sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item=paste0("Item", j), Score=y))
}

# 题目 5:叛逆者 (Item Specific Effect)
# 它虽然测量同一个潜变量(有 +1.0 * F),但 IV 对它有额外的直接负面打击 (-1.5 * IV)
# 净效应(Net Slope) ≈ 0.6 (from F) - 1.5 (Direct) = -0.9
y5 <- 1.0 * Latent_F - 1.5 * IV + rnorm(N, 0, 1)
sim_data_wide$y5 <- y5
sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item="Item5", Score=y5))


# ==========================================
# 2. 模型拟合
# ==========================================
library(lavaan)

# --- A. 聚合回归 ---
sim_data_wide$Mean_Score <- rowMeans(sim_data_wide[, paste0("y", 1:5)])
agg_model <- lm(Mean_Score ~ IV, data = sim_data_wide)
agg_intercept <- coef(agg_model)[1]
agg_slope     <- coef(agg_model)[2]

# --- B. SEM (Common Factor) ---
sem_syntax <- '
  F1 =~ y1 + y2 + y3 + y4 + y5
  F1 ~ IV
'
sem_fit <- sem(sem_syntax, data = sim_data_wide, std.lv = TRUE)

# 提取 SEM 隐含的回归线
est <- parameterEstimates(sem_fit)
gamma <- est[est$op == "~" & est$lhs == "F1" & est$rhs == "IV", "est"] # 潜变量斜率
sem_lines <- data.frame()

for(j in 1:5){
  item_name <- paste0("y", j)
  # 截距
  nu <- est[est$op == "~1" & est$lhs == item_name, "est"]
  if(length(nu)==0) nu <- mean(sim_data_wide[[item_name]])
  # 载荷
  lam <- est[est$op == "=~" & est$rhs == item_name, "est"]
  
  # 这里的关键:SEM 强行认为 斜率 = 载荷 * Gamma
  # 因为 y1-y4 都是正相关,Gamma 是正的,且所有题目内部正相关,
  # SEM 会估计出 y5 的载荷也是正的(因为 y5 也受 Latent_F 影响)
  # 于是 SEM 会错误地预测 y5 随着 IV 增加而增加
  implied_slope <- lam * gamma
  
  temp <- data.frame(IV = seq(min(IV), max(IV), length.out=100), Item=paste0("Item", j))
  temp$Score <- nu + implied_slope * temp$IV
  sem_lines <- rbind(sem_lines, temp)
}

# ==========================================
# 3. 绘图对比
# ==========================================
library(ggplot2)
library(patchwork)

common_theme <- theme_bw() + 
  theme(legend.position = "none", plot.title = element_text(face="bold"))

# Plot 1: Aggregation
p_agg <- ggplot(sim_data_long, aes(x = IV, y = Score)) +
  geom_point(color="grey", alpha=0.3) +
  geom_abline(intercept = agg_intercept, slope = agg_slope, color = "#D55E00", size = 2) +
  labs(title = "1. Aggregation", subtitle = "简单平均,彻底掩盖 Item 5") + 
  ylim(-4, 4) + common_theme

# Plot 2: SEM
# 注意看紫色线 (Item 5)
p_sem <- ggplot() +
  geom_point(data = sim_data_long, aes(x = IV, y = Score, color = Item), alpha = 0.1) +
  geom_line(data = sem_lines, aes(x = IV, y = Score, color = Item), size = 1.2) +
  labs(title = "2. SEM (Common Factor)", 
       subtitle = "强制一致性:\n由于 Item 5 属于该构念,SEM 强行预测它\n随 IV 增加而增加 (紫色线向上)。\n这与数据事实(散点向下)完全相反!") +
  ylim(-4, 4) + common_theme

# Plot 3: Real Data / RIS
p_ris <- ggplot(sim_data_long, aes(x = IV, y = Score, color = Item)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE, size = 1.2) +
  labs(title = "3. Real Data (RIS)", 
       subtitle = "真相:\nItem 5 (紫色) 实际上是负相关的。\n这是 SEM 无法捕捉的特异性斜率。") +
  ylim(-4, 4) + common_theme

p_agg + p_sem + p_ris

my_labels <- c("Item 1", "Item 2", "Item 3", "Item 4", "Item 5", "IV", "Factor")

semPaths(object = sem_fit,
         what = "std",
         whatLabels = "std",
         layout = "tree2",  
         edge.label.cex = 1, 
         rotation = 2,
         nodeLabels = my_labels,
)

title("Common Factor Model (SEM) 路径图", adj = 0.5, line = 2)
mtext("IV 到 Item 5 没有直接路径,必须经过 F1", side = 1, line = 0, cex = 1.2)


第二部分:理论模型——Random Item Slope Regression (RISR)

1. 模型的数学表达

针对第一部分提出的问题,文章正式提出了 Random Item Slope Regression (RISR) 模型。这是理解一切推断谬误的基石。

1.1 传统模型 vs. RISR模型

传统聚合回归 (Aggregation Model): 假设题目对 IV 的反应是固定的、一致的。 \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i \]

随机题目斜率回归 (RISR, Equation 4): 假设题目是从题库中随机抽取的,对 IV 的敏感度各不相同。 \[ y_{ij} = \beta_0 + u_{0i} + u_{0j} + (\beta_1 + \mathbf{u_{1j}})x_i + \epsilon_{ij} \]

其中核心差异在于 \(\mathbf{u_{1j}}\): * \(u_{1j}\) 代表第 \(j\) 个题目独有的斜率偏离(Random Item Slope)。 * 服从正态分布 \(u_{1j} \sim N(0, \tau_{11})\)。 * \(\tau_{11}\) 衡量了题目间对 IV 反应的异质性程度。

  • \(u_{1j}\) (Random Item Slope), \(u_{1j} \sim N(0, \tau_{11})\)
    • 题目对 IV 反应的特异性
    • 它代表了题目 \(j\)\(x\) 的敏感程度偏离平均斜率 \(\beta_1\) 多少
    • 实际斜率:对于题目 \(j\) 来说,它真实的斜率是 \((\beta_1 + u_{1j})\)
    • Aggregation/SEM 隐含假设\(u_{1j} = 0\) (即方差 \(\tau_{11} = 0\))
    • RISR 核心假设\(\tau_{11} > 0\)
  • \(u_{0i}\) (Random Participant Intercept), \(u_{0i} \sim N(0, \tau_{00}^{(subj)})\)
    • 被试的特异性
    • 比如:张三本身就倾向于打高分,他的 \(u_{0i}\) 就是正的
  • \(u_{0j}\) (Random Item Intercept), \(u_{0j} \sim N(0, \tau_{00}^{(item)})\)
    • 题目的难易度/通俗度
    • 比如:题目 1 措辞很诱人,大家都容易得分,它的 \(u_{0j}\) 就是正的
  • \(\epsilon_{ij}\) (Residual), \(\epsilon_{ij} \sim N(0, \sigma^2)\)

2. 致命的统计后果:SE 低估与 t 值膨胀

为什么忽略 \(u_{1j}\) 会导致严重的假阳性(Type I Error)?根本原因在于\(t\) 检验的机制失效。

2.1 t 值的计算逻辑

在线性回归中,判断显著性的 \(t\) 值计算公式为: \[ t = \frac{\text{Estimate}}{\text{Standard Error}} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} \]

2.2 SE 的数学推导对比

根据论文附录证明,两种模型对 SE 的估计截然不同:

  • 传统模型 (Naive SE): 认为只要增加被试量 \(N\),误差就能无限缩小。 \[ SE_{naive} \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x}} \] > 当 \(N \to \infty\)\(SE \to 0\)

  • RISR 模型 (True SE): 引入了题目采样的不确定性(Generalization Error)。 \[ SE_{true}(A10变形) \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x} + \mathbf{\frac{\tau_{11}}{J}}} \] > 当 \(N \to \infty\), 第一项趋近于0,但第二项 \(\frac{\tau_{11}}{J}\) 依然存在!

2.3 低估SE的因素

比较 真实模型 SE (RISR) 和 错误模型 SE (Aggregation/Naive) 的比率,比率越大,说明错误模型低估得越严重(即错得越离谱)。

由附录 A 的推导可以构造比率 \(K\)

\[ \text{Ratio } K = \frac{SE_{True}}{SE_{Naive}} = \sqrt{1 + \frac{I \cdot \tau_{11} \cdot s_x^2}{\sigma^2 + J \cdot \omega_{00}}} \]

  • 分子\(I\) (被试数), \(\tau_{11}\) (斜率变异), \(s_x^2\) (IV方差)
  • 分母\(\sigma^2\) (残差), \(J\) (题目数), \(\omega_{00}\) (被试截距变异)
  1. 被试数量 (\(I\)) 越多,低估越严重
  2. 题目数量 (\(J\)) 越少,低估越严重
  3. 被试截距变异 (\(\omega_{00}\)) 越小,低估越严重
  4. 应该是残差越小 (\(\sigma^2\) smaller),低估才越严重?

残差方差 (\(\sigma^2\)) 越大,低估越严重(❌?) larger underestimation when there is larger residual error variance❌


3. 模拟验证:大样本悖论 (The Big N Paradox)

这意味着,如果题目本身存在斜率变异(\(\tau_{11} > 0\)),而我们使用了传统模型(忽略它),我们会得到一个被严重低估的 SE

后果:分母变小 \(\rightarrow\) t 值虚高 \(\rightarrow\) 假阳性(Type I Error)。

而且,样本量 \(N\) 越大,错得越离谱。

图解: 只要看蓝色线(传统做法),当 \(N=3000\) 时,SE 几乎为 0。此时哪怕 \(\hat{\beta}\) 只有微小的 0.01,算出来的 \(t\) 值也会巨大无比,导致必然的显著。这解释了为什么大数据集特别容易出现 Random Item Slope 导致的假阳性。


4. 为什么常用指标无法诊断?

既然问题这么严重,为什么我们在做 Cronbach’s \(\alpha\) 或 SEM 模型拟合(CFI/RMSEA)时没有发现?

4.1 Cronbach’s \(\alpha\) 的盲区

\(\alpha\) 系数反映的是题目分数的内部一致性。 \[ Var(y_{ij}) = \underbrace{\omega_{00}}_{\text{人与人的巨大差异}} + \tau_{00} + \underbrace{\tau_{11}x_i^2}_{\text{微小的斜率差异}} + \sigma^2 \]

  • 现状:被试间的截距差异(\(\omega_{00}\),即有些人总是分高)通常占据了绝大部分方差。
  • 盲区\(\tau_{11}\)(对 IV 的反应差异)占比很小。\(\alpha\) 主要反映截距的一致性(\(\omega_{00}\)),对斜率层面的异质性(\(\tau_{11}\))不敏感 (Insensitive),Random Item Slope 的存在实际上会增加观察到的总编译,可能微弱地增加 \(\alpha\)

4.2 SEM 拟合指数的欺骗性

Common Factor Regression虽然比聚合回归严谨,它本质上是一个Constrained Model,它强迫所有题目通过潜变量产生联系:

  1. 残差吸收:SEM 将 Random Slope 的变异(\(u_{1j}x_i\))视为随机误差(Residuals, \(\epsilon\))。
  2. 拟合指标假阳性:只要这些变异没有破坏整体的协方差结构(通常确实没有,因为它们是关于斜率的,而不是关于截距的),SEM 的拟合指数(Global Fit Indices)就会出现假阴性,即明明模型设定错了,但 CFI 依然 > 0.95。

实证证据 (Real Data): 论文使用了 \(N=564\) 的真实数据发现,即使 CFI = 0.956, RMSEA = 0.087 这样被认为“可接受”的模型,在使用 RISR 检验后,依然发现了显著的 Random Item Slopes,且推翻了之前的显著性结论。

结论:高信度 (\(\alpha\)) 和高拟合度 (CFI) 不能 作为不存在 Random Item Slope 的证据。


第三部分:实证证据——模拟与真实数据

在建立了理论模型后,Donnellan 等人通过两步验证了 RISR 的必要性:首先在受控环境下(模拟)证明传统模型会犯错,然后在真实环境(实测数据)中证明这种情况确实存在。

1. 模拟研究 (Simulation Study)

研究者构建了 72 种不同的参数组合,系统改变了样本量 (\(N\))、题目数量 (\(J\)) 和随机斜率的方差大小 (\(\tau_{11}\))。

1.1 核心发现:Type I 错误率膨胀

在模拟中,设定 IV 和 DV 的真实平均关系为 0 (\(\beta_1 = 0\))。因此,任何“显著”的结果都是假阳性(Type I Error)。

图表解读: 1. 红色柱子 (Aggregation)蓝色柱子 (Common Factor): - 当存在随机题目斜率(\(\tau_{11} > 0\))时,随着样本量 (\(N\)) 的增加,错误率飙升,甚至接近 100%。 - 警示:这就是前文提到的“大样本悖论”。样本越大,传统模型越“确信”一个错误的结论。 2. 绿色柱子 (RISR): - 无论样本量多大,错误率始终控制在名义水平(0.05)左右。 - 证明了 RISR 模型能有效校正标准误(SE)。

1.2 只要有一点点变异就够了

模拟显示,即使随机题目斜率的方差非常小(仅占相关误差方差的 0.549%),在大样本下(\(N=1000\))也足以导致传统模型的统计推断失效。这说明这不是一个边缘问题,而是一个普遍的隐患。


2. 真实数据分析 (Real World Data)

为了证明这不仅仅是数学游戏,作者收集了 \(N=564\) 的数据,使用了心理学常用的量表(如大五人格、自我实现量表等)和反应时任务。

2.1 案例:年龄与自我实现 (Age & Self-Actualization)

这是一个最具戏剧性的例子。研究者探究“年龄”是否预测“自我实现”得分。

[图片占位符 2] 请在此处插入论文中的 Figure 5 (Self-Actualization Scores Predicted by Age)

结果对比: * 传统聚合回归:发现显著的负相关 (\(p < .001\))。结论:年龄越大,自我实现感越低。 * RISR 模型:结果不显著 (\(p = .066\))。 * 发生了什么? 观察 Figure 5 底部的小图可以发现,题目之间存在巨大的异质性: * Item 8 (“I fear failure”) 和 Item 14 对年龄非常敏感(强负相关)。 * 其他题目对年龄几乎没有反应,甚至呈正相关。 * 结论:所谓的“显著负相关”完全是由少数几个对年龄敏感的题目(主要关于“恐惧”)驱动的,不能推广到整个“自我实现”构念。

2.2 普遍性

在测试的所有 IV-DV 组合中,随机题目斜率普遍存在。在某些情况下,RISR 估计出的随机斜率方差甚至远大于模拟中设定的水平。这表明我们过去文献中许多“小而显著”的大样本效应,可能只是由于量表中混入了几个对 IV 特别敏感的题目。


第四部分:总结建议与实战应用

1. 总结讨论 (General Discussion)

1.1 另一种测量哲学

RISR 不仅仅是一个统计修正,它代表了一种不同的测量观 (Measurement Model): - Common Factor (SEM):认为题目是潜变量的“纯净”反映,题目特异性是“误差”。 - RISR:认为题目是构念的“样本”。题目本身具有因果力,允许题目与外部变量有独特的交互。我们应该把结论推广到“题库”,而不仅仅是“人”。

1.2 实践建议

  1. 警惕大样本中的微小显著效应:当 \(N\) 很大且效应量很小时,必须考虑题目斜率异质性的影响。
  2. 作为敏感性分析 (Sensitivity Check):不一定要完全抛弃传统方法,但应使用 RISR 验证核心结论是否稳健。
  3. 不要迷信 Fit Indices:CFI 和 Alpha 系数无法诊断这个问题。

2. R 语言实战教程 (How to fit RISR)

如何在自己的研究中实现这个模型?其实非常简单,只需要使用 lme4 包即可。

2.1 数据准备

关键在于数据必须是 长数据格式 (Long Format)。每一行是一个观察值(某人回答某题的分数)。

2.2 代码示范

我们将生成一个模拟数据集,并手把手演示如何由“聚合回归”转向“RISR”。

library(lme4)
library(dplyr)
library(ggplot2)

# --- 第一步:生成模拟数据 (Long Format) ---
set.seed(2025)
n_subj <- 200  # 200名被试
n_item <- 10   # 10个题目
ids <- rep(1:n_subj, each = n_item)
items <- rep(paste0("Item_", 1:n_item), times = n_subj)

# IV: 连续变量 (如 Age)
# 注意:IV 必须是 Participant-Level 的 (每人只有一个值)
IV_data <- data.frame(ID = 1:n_subj, IV = rnorm(n_subj))
data_long <- data.frame(ID = factor(ids), Item = factor(items)) %>%
  left_join(IV_data, by = "ID")

# 设定真实模型:
# Fixed Slope (Beta) = 0.1 (微弱正相关)
# Random Item Slope (Tau_11) = 存在显著异质性
item_slopes <- rnorm(n_item, mean = 0.1, sd = 0.3) # 每个题目有不同的真实斜率
names(item_slopes) <- unique(data_long$Item)

# 生成分数 Y
data_long$Slope_j <- item_slopes[data_long$Item]
data_long$Y <- 0 +  # Intercept
               (0.5 * rnorm(n_subj)[data_long$ID]) + # Random Subj Intercept
               (0.5 * rnorm(n_item)[as.numeric(data_long$Item)]) + # Random Item Intercept
               data_long$Slope_j * data_long$IV +    # Slope effect
               rnorm(nrow(data_long), 0, 1)          # Residual

# --- 第二步:传统做法 (Aggregation) ---
data_agg <- data_long %>%
  group_by(ID, IV) %>%
  summarise(Mean_Y = mean(Y), .groups="drop")

model_agg <- lm(Mean_Y ~ IV, data = data_agg)
print(summary(model_agg)$coefficients)

# --- 第三步:RISR 建模 (Using lme4) ---
# 语法解析:
# Y ~ IV : 固定效应 (Fixed Effect)
# (1 | ID) : 随机被试截距 (每个人基础分不同)
# (1 + IV | Item) : 随机题目效应 (核心!)
#      -> "1" 代表题目难度不同 (Random Item Intercept)
#      -> "IV" 代表题目对IV敏感度不同 (Random Item Slope)

model_risr <- lmer(Y ~ IV + (1 | ID) + (1 + IV | Item), 
                   data = data_long,
                   control = lmerControl(optimizer = "bobyqa")) # 优化器防报错

# --- 第四步:结果对比 ---
cat("\n=== 结果对比 ===\n")
cat("1. 聚合回归 t-value:", summary(model_agg)$coefficients["IV", "t value"], "\n")
cat("2. RISR 模型 t-value:", summary(model_risr)$coefficients["IV", "t value"], "\n")
cat("注意:RISR 的 t 值通常会变小(绝对值),因为 SE 变大了。\n")

# 提取并画出题目斜率 (可选)
# ranef(model_risr)$Item 包含了每个题目的截距和斜率
item_effects <- ranef(model_risr)$Item
item_effects$Item <- rownames(item_effects)
colnames(item_effects)[1:2] <- c("Intercept", "Slope_Deviation")

# 加上固定效应才是总斜率
fixed_slope <- fixef(model_risr)["IV"]
item_effects$Total_Slope <- item_effects$Slope_Deviation + fixed_slope

print(head(item_effects[, c("Item", "Total_Slope")]))

2.3 建模注意事项

  1. 收敛问题 (Convergence):如果模型不收敛,通常是因为模型太复杂而数据不足。可以尝试移除随机项之间的协方差,例如使用 (1 | Item) + (0 + IV | Item),或者换用 brms (贝叶斯方法)。
  2. 标准化:建议对 IV 和 DV 进行标准化(Standardization),有助于模型收敛和系数解释。
  3. 自由度问题lme4 默认不提供 p 值(因为自由度计算有争议)。可以使用 lmerTest 包自动加载 p 值,或者像论文一样关注 t 值(t > 1.96 视为显著)。

3. 结语

“Treat items as random samples, not fixed indicators.”

RISR 并不是要否定过去的所有研究,而是提醒我们在处理异质性题目大样本数据时,需要更加谦卑地对待统计推断的不确定性。当我们声称发现了一个关于“构念”的真理时,请确保这个真理不是仅由其中一两个题目驱动的。

---
title: 'Random Item Slope Regression'
author: "滕晗"
date: "2025-12-03"
output:
  html_notebook:
    theme: flatly
    toc: true
    toc_float: true
    code_folding: show
  pdf_document:
    toc: true
  html_document:
    toc: true
    df_print: paged
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, message = FALSE, warning = FALSE)
library(ggplot2)
library(dplyr)
library(tidyr)
library(patchwork)
library(lavaan)
library(semPlot)
library(gridExtra)
```

# 背景与问题引入

## 1. 线性模型的数据结构

在心理学研究中，经常使用混合线性模型（Mixed-Effects Models）或类似的思想。假设我们研究 **“年龄 (Age, IV)”** 对 **“外向性 (Extraversion, DV)”** 的影响。

我们需要区分两个层面的变异：

### 1.1 被试层面 (Participant Level)

-   **被试截距 (Participant Intercept)**：不同人的基础外向性分数不同（有人天生社牛，有人社恐）。
-   **被试斜率 (Participant Slope)**：年龄增长对不同人的影响可能不同（论文主要讨论被试间设计，不讨论此层面的随机斜率）

### 1.2 题目层面 (Item Level) —— 本次报告的核心

题目也有其独特的属性，但往往被我们忽略。

-   **题目截距 (Item Intercept = 难度/通俗度)**：
    -   有些题容易得分（例如：“我喜欢和人说话”）。
    -   有些题难得分（例如：“我喜欢演讲”）。
    -   *现状：* 这一点传统方法（IRT 或 SEM）处理得很好（通过题目参数或载荷截距）。
-   **题目斜率 (Item Slope = 对 IV 的敏感度)**：
    -   **核心问题**：IV 对不同题目的预测力是一样的吗？
    -   *举例*：随着年龄增长，“喜欢和人说话”这种温和的社交可能变化不大（Slope $\approx$ 0）；但“喜欢演讲”这种追求刺激的社交可能会急剧下降（Slope \< 0）。
    -   *现状*：这是传统方法假设为**固定**的地方。

------------------------------------------------------------------------

## 2. 未被建模的交互作用方差 (Unmodeled Interaction Variance)

如果存在上述的题目斜率差异（即 IV 与 Items 存在交互作用），但我们在分析时强行忽略它，会发生什么？

```{r interaction-demo, fig.height=5, fig.width=8}
set.seed(123)
n_subj <- 50
age <- rnorm(n_subj, mean = 20, sd = 10) # IV

# 假设构念由2个题目测量
# Item 1: 随年龄增长稍微增加 (Slope = 0.05)
# Item 2: 随年龄增长显著减少 (Slope = -0.05)
# 平均效应 (True Effect): 0 (Items 相互抵消)

item1_scores <- 0.05 * age + rnorm(n_subj)
item2_scores <- -0.05 * age + rnorm(n_subj)

demo_data <- data.frame(
  ID = rep(1:n_subj, 2),
  Age = rep(age, 2),
  Score = c(item1_scores, item2_scores),
  Item = rep(c("Item 1 (温和社交)", "Item 2 (刺激社交)"), each = n_subj)
)

# 计算聚合分数 (Aggregation)
agg_data <- demo_data %>%
  group_by(ID, Age) %>%
  summarise(Mean_Score = mean(Score))

# --- 绘图 ---
p1 <- ggplot(demo_data, aes(x = Age, y = Score, color = Item, group = Item)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", se = FALSE, size = 1.5) +
  theme_minimal() +
  labs(title = "真实情况：题目斜率异质性", subtitle = "不同题目对 Age 的反应截然不同") +
  theme(legend.position = "bottom")

p2 <- ggplot(agg_data, aes(x = Age, y = Mean_Score)) +
  geom_point(alpha = 0.3) +
  geom_smooth(method = "lm", color = "black", size = 1.5) +
  theme_minimal() +
  labs(title = "聚合分析 (Aggregation)", subtitle = "强行平均后，斜率相互抵消，掩盖了真实机制")

p1 + p2
```
  
> **如图所示**： 左图中，IV 与 Items 存在明显的交互作用（斜率一正一负）。 右图中，使用聚合（求平均）方法时，这种丰富的交互信息丢失了。这部分**未被建模的交互作用方差**，在后续统计检验中会被错误地处理。

------------------------------------------------------------------------

## 3. 概化理论 (Generalizability Theory) 的悖论

**概化理论**认为：为了让结论具有推广性，统计上应假设我们使用的题目是从一个**无限题库 (infinite pool of items)** 中随机抽取的。这意味着题目应当被视为**随机效应 (Random Effect)**。

在实际数据分析中陷入了一个悖论：

1.  **理论上**：承认题目是随机采样的，即应该视作随机效应。

2.  **建模时**：未考虑题目的随机效应，变相假定这些Items对 IV 的反应是固定效应（Fixed Effect）。

> **异质性(Heterogeneity)要求与同质性 (Homogeneity) 的误解**：
>
> 有的研究在设计题目表达概念/构念时，为了高外部效度，会从不同角度设计题目，这些题目本身存在异质性
>
> 退一步讲，就算题目是同质的，也只代表它们“长得像”（内部相关高），不代表它们对外部变量（IV）的反应（Slope）也是一样的

------------------------------------------------------------------------

## 4. 问题出现：现有模型的视而不见

无论是简单的回归（Aggregation）还是复杂的结构方程模型（SEM），都在不同程度上抹杀了这种题目层面的斜率不一致。

### 4.1 两种忽视的方式

1.  **聚合模型 (Aggregation Regression)**：
    -   做法：求平均分。
    -   假设：所有题目对构念的贡献相等（权重=1），且对 IV 的反应斜率完全相同。
    -   结果：丢失所有题目特异性信息。
2.  **结构方程模型 (Common Factor / SEM)**：
    -   做法：潜变量建模。
    -   假设：题目对 IV 的反应必须通过“潜变量”传导。这意味着，如果 Item A 的载荷是 Item B 的2倍，那么 Item A 对 IV 的斜率也必须严格是 Item B 的2倍。
    -   局限：IV 无法**直接**与单个 Item 产生独特的交互作用。模型会把这部分本该属于“Random Slope”的变异，错误地当作了单纯的残差。

### 4.2 模型假设对比

```{r simulation-plot, fig.height=5, fig.width=12}
# ==========================================
# 1. 进阶数据生成：构造“矛盾”情境
# ==========================================
set.seed(999) # 换一个种子确保效果明显
N <- 300
J <- 5
IV <- rnorm(N, 0, 1)

# A. 生成潜变量 (Factor)
# 假设 IV 对潜变量有强正向影响 (Beta = 0.6)
Latent_F <- 0.6 * IV + rnorm(N, 0, 0.8)

# B. 生成题目 (Items)
# 关键点：所有题目在测量模型上都是“好题”（正向载荷），内部一致性高
# y = 1.0 * F + unique_effect + error
sim_data_wide <- data.frame(ID = 1:N, IV = IV)
sim_data_long <- data.frame()

# 题目 1-4：完全听从潜变量指挥
for(j in 1:4){
  y <- 1.0 * Latent_F + rnorm(N, 0, 1) 
  sim_data_wide[[paste0("y", j)]] <- y
  sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item=paste0("Item", j), Score=y))
}

# 题目 5：叛逆者 (Item Specific Effect)
# 它虽然测量同一个潜变量（有 +1.0 * F），但 IV 对它有额外的直接负面打击 (-1.5 * IV)
# 净效应(Net Slope) ≈ 0.6 (from F) - 1.5 (Direct) = -0.9
y5 <- 1.0 * Latent_F - 1.5 * IV + rnorm(N, 0, 1)
sim_data_wide$y5 <- y5
sim_data_long <- rbind(sim_data_long, data.frame(ID=1:N, IV=IV, Item="Item5", Score=y5))


# ==========================================
# 2. 模型拟合
# ==========================================
library(lavaan)

# --- A. 聚合回归 ---
sim_data_wide$Mean_Score <- rowMeans(sim_data_wide[, paste0("y", 1:5)])
agg_model <- lm(Mean_Score ~ IV, data = sim_data_wide)
agg_intercept <- coef(agg_model)[1]
agg_slope     <- coef(agg_model)[2]

# --- B. SEM (Common Factor) ---
sem_syntax <- '
  F1 =~ y1 + y2 + y3 + y4 + y5
  F1 ~ IV
'
sem_fit <- sem(sem_syntax, data = sim_data_wide, std.lv = TRUE)

# 提取 SEM 隐含的回归线
est <- parameterEstimates(sem_fit)
gamma <- est[est$op == "~" & est$lhs == "F1" & est$rhs == "IV", "est"] # 潜变量斜率
sem_lines <- data.frame()

for(j in 1:5){
  item_name <- paste0("y", j)
  # 截距
  nu <- est[est$op == "~1" & est$lhs == item_name, "est"]
  if(length(nu)==0) nu <- mean(sim_data_wide[[item_name]])
  # 载荷
  lam <- est[est$op == "=~" & est$rhs == item_name, "est"]
  
  # 这里的关键：SEM 强行认为 斜率 = 载荷 * Gamma
  # 因为 y1-y4 都是正相关，Gamma 是正的，且所有题目内部正相关，
  # SEM 会估计出 y5 的载荷也是正的（因为 y5 也受 Latent_F 影响）
  # 于是 SEM 会错误地预测 y5 随着 IV 增加而增加
  implied_slope <- lam * gamma
  
  temp <- data.frame(IV = seq(min(IV), max(IV), length.out=100), Item=paste0("Item", j))
  temp$Score <- nu + implied_slope * temp$IV
  sem_lines <- rbind(sem_lines, temp)
}

# ==========================================
# 3. 绘图对比
# ==========================================
library(ggplot2)
library(patchwork)

common_theme <- theme_bw() + 
  theme(legend.position = "none", plot.title = element_text(face="bold"))

# Plot 1: Aggregation
p_agg <- ggplot(sim_data_long, aes(x = IV, y = Score)) +
  geom_point(color="grey", alpha=0.3) +
  geom_abline(intercept = agg_intercept, slope = agg_slope, color = "#D55E00", size = 2) +
  labs(title = "1. Aggregation", subtitle = "简单平均，彻底掩盖 Item 5") + 
  ylim(-4, 4) + common_theme

# Plot 2: SEM
# 注意看紫色线 (Item 5)
p_sem <- ggplot() +
  geom_point(data = sim_data_long, aes(x = IV, y = Score, color = Item), alpha = 0.1) +
  geom_line(data = sem_lines, aes(x = IV, y = Score, color = Item), size = 1.2) +
  labs(title = "2. SEM (Common Factor)", 
       subtitle = "强制一致性：\n由于 Item 5 属于该构念，SEM 强行预测它\n随 IV 增加而增加 (紫色线向上)。\n这与数据事实(散点向下)完全相反！") +
  ylim(-4, 4) + common_theme

# Plot 3: Real Data / RIS
p_ris <- ggplot(sim_data_long, aes(x = IV, y = Score, color = Item)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE, size = 1.2) +
  labs(title = "3. Real Data (RIS)", 
       subtitle = "真相：\nItem 5 (紫色) 实际上是负相关的。\n这是 SEM 无法捕捉的特异性斜率。") +
  ylim(-4, 4) + common_theme

p_agg + p_sem + p_ris
```

```{r sem-path-diagram, fig.height=6, fig.width=8, message=FALSE, warning=FALSE}
my_labels <- c("Item 1", "Item 2", "Item 3", "Item 4", "Item 5", "IV", "Factor")

semPaths(object = sem_fit,
         what = "std",
         whatLabels = "std",
         layout = "tree2",  
         edge.label.cex = 1, 
         rotation = 2,
         nodeLabels = my_labels,
)

title("Common Factor Model (SEM) 路径图", adj = 0.5, line = 2)
mtext("IV 到 Item 5 没有直接路径，必须经过 F1", side = 1, line = 0, cex = 1.2)
```

------------------------------------------------------------------------







# 第二部分：理论模型——Random Item Slope Regression (RISR)

## 1. 模型的数学表达

针对第一部分提出的问题，文章正式提出了 **Random Item Slope Regression (RISR)** 模型。这是理解一切推断谬误的基石。

### 1.1 传统模型 vs. RISR模型

**传统聚合回归 (Aggregation Model)**： 假设题目对 IV 的反应是固定的、一致的。 $$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

**随机题目斜率回归 (RISR, Equation 4)**： 假设题目是从题库中随机抽取的，对 IV 的敏感度各不相同。 $$ y_{ij} = \beta_0 + u_{0i} + u_{0j} + (\beta_1 + \mathbf{u_{1j}})x_i + \epsilon_{ij} $$


其中核心差异在于 $\mathbf{u_{1j}}$： \* $u_{1j}$ 代表第 $j$ 个题目独有的斜率偏离（Random Item Slope）。 \* 服从正态分布 $u_{1j} \sim N(0, \tau_{11})$。 \* $\tau_{11}$ 衡量了题目间对 IV 反应的异质性程度。

-   **$u_{1j}$ (Random Item Slope)**, $u_{1j} \sim N(0, \tau_{11})$：
    *   **题目对 IV 反应的特异性**
    *   它代表了题目 $j$ 对 $x$ 的敏感程度偏离平均斜率 $\beta_1$ 多少
    *   **实际斜率**：对于题目 $j$ 来说，它真实的斜率是 $(\beta_1 + u_{1j})$
    *   **Aggregation/SEM 隐含假设**：$u_{1j} = 0$ (即方差 $\tau_{11} = 0$)
    *   **RISR 核心假设**：$\tau_{11} > 0$

-   **$u_{0i}$ (Random Participant Intercept)**, $u_{0i} \sim N(0, \tau_{00}^{(subj)})$：
    *   **被试的特异性**
    *   比如：张三本身就倾向于打高分，他的 $u_{0i}$ 就是正的

-   **$u_{0j}$ (Random Item Intercept)**, $u_{0j} \sim N(0, \tau_{00}^{(item)})$：
    *   **题目的难易度/通俗度**
    *   比如：题目 1 措辞很诱人，大家都容易得分，它的 $u_{0j}$ 就是正的

-   **$\epsilon_{ij}$ (Residual)**, $\epsilon_{ij} \sim N(0, \sigma^2)$：


-------------

## 2. 致命的统计后果：SE 低估与 t 值膨胀

为什么忽略 $u_{1j}$ 会导致严重的假阳性（Type I Error）？根本原因在于$t$ 检验的机制失效。

### 2.1 t 值的计算逻辑

在线性回归中，判断显著性的 $t$ 值计算公式为： $$ t = \frac{\text{Estimate}}{\text{Standard Error}} = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} $$

### 2.2 SE 的数学推导对比

根据论文附录证明，两种模型对 SE 的估计截然不同：

-   **传统模型 (Naive SE)**： 认为只要增加被试量 $N$，误差就能无限缩小。 $$ SE_{naive} \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x}} $$ \> 当 $N \to \infty$， $SE \to 0$。

-   **RISR 模型 (True SE)**： 引入了题目采样的不确定性（Generalization Error）。 $$ SE_{true}(A10变形) \approx \sqrt{\frac{\sigma^2_{residual}}{N \times J \times \sigma^2_x} + \mathbf{\frac{\tau_{11}}{J}}} $$ \> 当 $N \to \infty$， 第一项趋近于0，但第二项 $\frac{\tau_{11}}{J}$ 依然存在！


### 2.3 低估SE的因素

比较 **真实模型 SE** (RISR) 和 **错误模型 SE** (Aggregation/Naive) 的比率，比率越大，说明错误模型低估得越严重（即错得越离谱）。

由附录 A 的推导可以构造比率 $K$：

$$
\text{Ratio } K = \frac{SE_{True}}{SE_{Naive}} = \sqrt{1 + \frac{I \cdot \tau_{11} \cdot s_x^2}{\sigma^2 + J \cdot \omega_{00}}}
$$

*   **分子**：$I$ (被试数), $\tau_{11}$ (斜率变异), $s_x^2$ (IV方差)
*   **分母**：$\sigma^2$ (残差), $J$ (题目数), $\omega_{00}$ (被试截距变异)

1. 被试数量 ($I$) 越多，低估越严重
2. 题目数量 ($J$) 越少，低估越严重 
3. 被试截距变异 ($\omega_{00}$) 越小，低估越严重
4. 应该是残差越小 ($\sigma^2$ smaller)，低估才越严重？

> 残差方差 ($\sigma^2$) 越大，低估越严重(❌？)
> larger underestimation when there is larger residual error variance❌

-------

## 3. 模拟验证：大样本悖论 (The Big N Paradox)

这意味着，如果题目本身存在斜率变异（$\tau_{11} > 0$），而我们使用了传统模型（忽略它），我们会得到一个**被严重低估的 SE**。

**后果**：分母变小 $\rightarrow$ t 值虚高 $\rightarrow$ 假阳性（Type I Error）。

而且，**样本量** $N$ 越大，错得越离谱。

```{r error-inflation-plot, echo=FALSE, fig.height=5, fig.width=9}
# --- 模拟参数设置 ---
N_seq <- seq(50, 3000, by = 50)
J <- 10        # 题目数量固定为10
tau_11 <- 0.05 # 题目斜率变异 (真实存在)
sigma_err <- 1 # 残差

# --- 计算理论 SE ---
# 1. Naive SE (传统模型): 随 N 增加趋近于 0
se_naive <- sqrt(sigma_err / (N_seq * J))

# 2. True SE (RISR): 随 N 增加趋近于 sqrt(tau_11/J)
# 论文公式 A10 的简化版逻辑
se_true  <- sqrt(sigma_err / (N_seq * J) + tau_11 / J)

# --- 构造绘图数据 ---
plot_data <- data.frame(
  N = rep(N_seq, 2),
  SE = c(se_naive, se_true),
  Type = rep(c("传统模型 (Aggregation/SEM)", "RISR 模型 (Proposed)"), each = length(N_seq))
)

# 【关键修改】：显式指定因子水平顺序，确保颜色映射正确
# 顺序：1. 传统模型 (对应第一个颜色 Blue), 2. RISR (对应第二个颜色 Red)
plot_data$Type <- factor(plot_data$Type, 
                         levels = c("传统模型 (Aggregation/SEM)", "RISR 模型 (Proposed)"))

# --- 绘图 ---
ggplot(plot_data, aes(x = N, y = SE, color = Type)) +
  geom_line(size = 1.2) +
  # 绘制 RISR 的极限下限 (Asymptotic Standard Error)
  geom_hline(yintercept = sqrt(tau_11/J), linetype="dashed", color="#D55E00", alpha=0.5) +
  annotate("text", x = 2000, y = sqrt(tau_11/J) + 0.002, 
           label = "无法消除的推广误差 (Generalization Error)", 
           color = "#D55E00", fontface = "bold", vjust = -0.5) +
  # 标注差异区域
  geom_ribbon(aes(ymin = 0, ymax = SE, fill = Type), alpha = 0.1, color = NA) +
  labs(title = "大样本悖论 (The Big N Paradox)",
       subtitle = "蓝色线 (传统模型) 错误地认为增加样本量可以将误差降为0\n红色线 (RISR) 承认题目是有限采样的，SE 会收敛到一个非零的下限",
       y = expression(paste("Standard Error of ", hat(beta)[1])), 
       x = "样本量 (Sample Size, N)") +
  # 强制指定颜色：Level 1 (传统) -> Blue, Level 2 (RISR) -> Red
  scale_color_manual(values = c("#0072B2", "#D55E00")) +
  scale_fill_manual(values = c("#0072B2", "#D55E00")) +
  theme_minimal() +
  theme(legend.position = "bottom", 
        plot.title = element_text(face="bold", size=14))
```

> **图解**： 只要看蓝色线（传统做法），当 $N=3000$ 时，SE 几乎为 0。此时哪怕 $\hat{\beta}$ 只有微小的 0.01，算出来的 $t$ 值也会巨大无比，导致必然的显著。这解释了为什么大数据集特别容易出现 Random Item Slope 导致的假阳性。

------------------------------------------------------------------------

## 4. 为什么常用指标无法诊断？

既然问题这么严重，为什么我们在做 Cronbach's $\alpha$ 或 SEM 模型拟合（CFI/RMSEA）时没有发现？

### 4.1 Cronbach's $\alpha$ 的盲区

$\alpha$ 系数反映的是题目分数的内部一致性。 $$ Var(y_{ij}) = \underbrace{\omega_{00}}_{\text{人与人的巨大差异}} + \tau_{00} + \underbrace{\tau_{11}x_i^2}_{\text{微小的斜率差异}} + \sigma^2 $$

-   **现状**：被试间的截距差异（$\omega_{00}$，即有些人总是分高）通常占据了绝大部分方差。
-   **盲区**：$\tau_{11}$（对 IV 的反应差异）占比很小。$\alpha$ 主要反映截距的一致性（$\omega_{00}$），对斜率层面的异质性（$\tau_{11}$）不敏感 (Insensitive)，Random Item Slope 的存在实际上会增加观察到的总编译，可能*微弱地*增加 $\alpha$

### 4.2 SEM 拟合指数的欺骗性

 **Common Factor Regression**虽然比聚合回归严谨，它本质上是一个**Constrained** Model，它强迫所有题目通过潜变量产生联系：

1.  **残差吸收**：SEM 将 Random Slope 的变异（$u_{1j}x_i$）视为随机误差（Residuals, $\epsilon$）。
2.  **拟合指标假阳性**：只要这些变异没有破坏整体的协方差结构（通常确实没有，因为它们是关于斜率的，而不是关于截距的），SEM 的拟合指数（Global Fit Indices）就会出现**假阴性**，即明明模型设定错了，但 CFI 依然 > 0.95。

**实证证据 (Real Data)**： 论文使用了 $N=564$ 的真实数据发现，即使 **CFI = 0.956, RMSEA = 0.087** 这样被认为“可接受”的模型，在使用 RISR 检验后，依然发现了显著的 Random Item Slopes，且推翻了之前的显著性结论。

> **结论**：高信度 ($\alpha$) 和高拟合度 (CFI) **不能** 作为不存在 Random Item Slope 的证据。


------------------------------------------------------------------------





# 第三部分：实证证据——模拟与真实数据

在建立了理论模型后，Donnellan 等人通过两步验证了 RISR 的必要性：首先在受控环境下（模拟）证明传统模型会犯错，然后在真实环境（实测数据）中证明这种情况确实存在。

## 1. 模拟研究 (Simulation Study)

研究者构建了 72 种不同的参数组合，系统改变了样本量 ($N$)、题目数量 ($J$) 和随机斜率的方差大小 ($\tau_{11}$)。

### 1.1 核心发现：Type I 错误率膨胀

在模拟中，设定 IV 和 DV 的**真实平均关系为 0** ($\beta_1 = 0$)。因此，任何“显著”的结果都是假阳性（Type I Error）。

<img src="figs/fig3.png"/>


**图表解读**：
1.  **红色柱子 (Aggregation)** 和 **蓝色柱子 (Common Factor)**：
    - 当存在随机题目斜率（$\tau_{11} > 0$）时，随着样本量 ($N$) 的增加，错误率飙升，甚至接近 100%。
    - **警示**：这就是前文提到的“大样本悖论”。样本越大，传统模型越“确信”一个错误的结论。
2.  **绿色柱子 (RISR)**：
    - 无论样本量多大，错误率始终控制在名义水平（0.05）左右。
    - 证明了 RISR 模型能有效校正标准误（SE）。

### 1.2 只要有一点点变异就够了
模拟显示，即使随机题目斜率的方差非常小（仅占相关误差方差的 **0.549%**），在大样本下（$N=1000$）也足以导致传统模型的统计推断失效。这说明这不是一个边缘问题，而是一个普遍的隐患。

------------------------------------------------------------------------

## 2. 真实数据分析 (Real World Data)

为了证明这不仅仅是数学游戏，作者收集了 $N=564$ 的数据，使用了心理学常用的量表（如大五人格、自我实现量表等）和反应时任务。

### 2.1 案例：年龄与自我实现 (Age & Self-Actualization)

这是一个最具戏剧性的例子。研究者探究“年龄”是否预测“自我实现”得分。

> **[图片占位符 2]**
> *请在此处插入论文中的 **Figure 5** (Self-Actualization Scores Predicted by Age)*

**结果对比**：
*   **传统聚合回归**：发现显著的负相关 ($p < .001$)。结论：年龄越大，自我实现感越低。
*   **RISR 模型**：结果**不显著** ($p = .066$)。
*   **发生了什么？** 观察 Figure 5 底部的小图可以发现，题目之间存在巨大的**异质性**：
    *   Item 8 ("I fear failure") 和 Item 14 对年龄非常敏感（强负相关）。
    *   其他题目对年龄几乎没有反应，甚至呈正相关。
    *   **结论**：所谓的“显著负相关”完全是由少数几个对年龄敏感的题目（主要关于“恐惧”）驱动的，不能推广到整个“自我实现”构念。

### 2.2 普遍性
在测试的所有 IV-DV 组合中，**随机题目斜率普遍存在**。在某些情况下，RISR 估计出的随机斜率方差甚至远大于模拟中设定的水平。这表明我们过去文献中许多“小而显著”的大样本效应，可能只是由于量表中混入了几个对 IV 特别敏感的题目。

------------------------------------------------------------------------








# 第四部分：总结建议与实战应用

## 1. 总结讨论 (General Discussion)

### 1.1 另一种测量哲学
RISR 不仅仅是一个统计修正，它代表了一种不同的**测量观 (Measurement Model)**：
-   **Common Factor (SEM)**：认为题目是潜变量的“纯净”反映，题目特异性是“误差”。
-   **RISR**：认为题目是构念的“样本”。题目本身具有因果力，允许题目与外部变量有独特的交互。我们应该把结论推广到“题库”，而不仅仅是“人”。

### 1.2 实践建议
1.  **警惕大样本中的微小显著效应**：当 $N$ 很大且效应量很小时，必须考虑题目斜率异质性的影响。
2.  **作为敏感性分析 (Sensitivity Check)**：不一定要完全抛弃传统方法，但应使用 RISR 验证核心结论是否稳健。
3.  **不要迷信 Fit Indices**：CFI 和 Alpha 系数无法诊断这个问题。

------------------------------------------------------------------------

## 2. R 语言实战教程 (How to fit RISR)

如何在自己的研究中实现这个模型？其实非常简单，只需要使用 `lme4` 包即可。

### 2.1 数据准备
关键在于数据必须是 **长数据格式 (Long Format)**。每一行是一个观察值（某人回答某题的分数）。

### 2.2 代码示范
我们将生成一个模拟数据集，并手把手演示如何由“聚合回归”转向“RISR”。

```{r risr-tutorial, echo=TRUE}
library(lme4)
library(dplyr)
library(ggplot2)

# --- 第一步：生成模拟数据 (Long Format) ---
set.seed(2025)
n_subj <- 200  # 200名被试
n_item <- 10   # 10个题目
ids <- rep(1:n_subj, each = n_item)
items <- rep(paste0("Item_", 1:n_item), times = n_subj)

# IV: 连续变量 (如 Age)
# 注意：IV 必须是 Participant-Level 的 (每人只有一个值)
IV_data <- data.frame(ID = 1:n_subj, IV = rnorm(n_subj))
data_long <- data.frame(ID = factor(ids), Item = factor(items)) %>%
  left_join(IV_data, by = "ID")

# 设定真实模型：
# Fixed Slope (Beta) = 0.1 (微弱正相关)
# Random Item Slope (Tau_11) = 存在显著异质性
item_slopes <- rnorm(n_item, mean = 0.1, sd = 0.3) # 每个题目有不同的真实斜率
names(item_slopes) <- unique(data_long$Item)

# 生成分数 Y
data_long$Slope_j <- item_slopes[data_long$Item]
data_long$Y <- 0 +  # Intercept
               (0.5 * rnorm(n_subj)[data_long$ID]) + # Random Subj Intercept
               (0.5 * rnorm(n_item)[as.numeric(data_long$Item)]) + # Random Item Intercept
               data_long$Slope_j * data_long$IV +    # Slope effect
               rnorm(nrow(data_long), 0, 1)          # Residual

# --- 第二步：传统做法 (Aggregation) ---
data_agg <- data_long %>%
  group_by(ID, IV) %>%
  summarise(Mean_Y = mean(Y), .groups="drop")

model_agg <- lm(Mean_Y ~ IV, data = data_agg)
print(summary(model_agg)$coefficients)

# --- 第三步：RISR 建模 (Using lme4) ---
# 语法解析：
# Y ~ IV : 固定效应 (Fixed Effect)
# (1 | ID) : 随机被试截距 (每个人基础分不同)
# (1 + IV | Item) : 随机题目效应 (核心！)
#      -> "1" 代表题目难度不同 (Random Item Intercept)
#      -> "IV" 代表题目对IV敏感度不同 (Random Item Slope)

model_risr <- lmer(Y ~ IV + (1 | ID) + (1 + IV | Item), 
                   data = data_long,
                   control = lmerControl(optimizer = "bobyqa")) # 优化器防报错

# --- 第四步：结果对比 ---
cat("\n=== 结果对比 ===\n")
cat("1. 聚合回归 t-value:", summary(model_agg)$coefficients["IV", "t value"], "\n")
cat("2. RISR 模型 t-value:", summary(model_risr)$coefficients["IV", "t value"], "\n")
cat("注意：RISR 的 t 值通常会变小（绝对值），因为 SE 变大了。\n")

# 提取并画出题目斜率 (可选)
# ranef(model_risr)$Item 包含了每个题目的截距和斜率
item_effects <- ranef(model_risr)$Item
item_effects$Item <- rownames(item_effects)
colnames(item_effects)[1:2] <- c("Intercept", "Slope_Deviation")

# 加上固定效应才是总斜率
fixed_slope <- fixef(model_risr)["IV"]
item_effects$Total_Slope <- item_effects$Slope_Deviation + fixed_slope

print(head(item_effects[, c("Item", "Total_Slope")]))
```

### 2.3 建模注意事项
1.  **收敛问题 (Convergence)**：如果模型不收敛，通常是因为模型太复杂而数据不足。可以尝试移除随机项之间的协方差，例如使用 `(1 | Item) + (0 + IV | Item)`，或者换用 `brms` (贝叶斯方法)。
2.  **标准化**：建议对 IV 和 DV 进行标准化（Standardization），有助于模型收敛和系数解释。
3.  **自由度问题**：`lme4` 默认不提供 p 值（因为自由度计算有争议）。可以使用 `lmerTest` 包自动加载 p 值，或者像论文一样关注 t 值（t > 1.96 视为显著）。

## 3. 结语

> "Treat items as random samples, not fixed indicators."

RISR 并不是要否定过去的所有研究，而是提醒我们在处理**异质性题目**和**大样本数据**时，需要更加谦卑地对待统计推断的不确定性。当我们声称发现了一个关于“构念”的真理时，请确保这个真理不是仅由其中一两个题目驱动的。
