可解释性

https://christophm.github.io/interpretable-ml-book/interpretability.html

很难(从数学上)定义可解释性。我喜欢 Miller (2017) 3对可解释性的(非数学)定义:可 解释性是人类理解决策原因的程度。 另一个是:可 解释性是人类可以一致地预测模型结果的程度 4. 机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决定或预测。如果一个模型的决策比另一个模型的决策更容易被人类理解,那么该模型比另一个模型更容易解释。我将交替使用可解释和可解释这两个术语。与 Miller (2017) 一样,我认为区分可解释性/解释性和解释性这两个术语是有意义的。我将使用“解释”来解释个别预测。请参阅有关解释的部分,以了解我们人类认为什么是好的解释。

可解释的机器学习是一个有用的总称,它捕获“从机器学习模型中提取有关数据中包含的关系或模型学习的关系的相关知识”。5个

可解释性的重要性

对错误预测的解释有助于理解错误的原因。它为如何修复系统提供了方向。如果机器学习模型表现良好,为什么我们不信任该模型而忽略它做出特定决定的原因?“问题在于,单一指标,如分类准确率,是对大多数现实世界任务的不完整描述。” (Doshi-Velez 和 Kim 2017 6)

如果您可以确保机器学习模型可以解释决策,您还可以更轻松地检查以下特征(Doshi-Velez 和 Kim 2017):

  1. 公平:确保预测没有偏见,不会隐含或明确歧视代表性不足的群体。一个可解释的模型可以告诉你为什么它决定某个人不应该获得贷款,并且人类更容易判断该决定是否基于习得的人口统计(例如种族)偏见。
  2. 隐私:确保数据中的敏感信息受到保护。
  3. 可靠性或稳健性:确保输入中的小变化不会导致预测发生大的变化。
  4. 因果关系:检查是否只提取因果关系。
  5. 信任:与黑匣子相比,人类更容易信任解释其决策的系统。