> 文章列表 > [CVPR 2020] Regularizing Class-Wise Predictions via Self-Knowledge Distillation

[CVPR 2020] Regularizing Class-Wise Predictions via Self-Knowledge Distillation

[CVPR 2020] Regularizing Class-Wise Predictions via Self-Knowledge Distillation

Contents

  • Introduction
  • Class-wise self-knowledge distillation (CS-KD)
    • Class-wise regularization
    • Effects of class-wise regularization
  • Experiments
    • Classification accuracy
  • References

Introduction

  • 为了缓解模型过拟合,作者提出 Class-wise self-knowledge distillation (CS-KD),用同一类别的其他样本的预测类别概率去进行自蒸馏,使得模型输出更有意义和更加一致的预测结果

Class-wise self-knowledge distillation (CS-KD)

Class-wise regularization

在这里插入图片描述

  • class-wise regularization loss. 使得属于同一类别样本的预测概率分布彼此接近,相当于对模型自身的 dark knowledge (i.e., the knowledge on wrong predictions) 进行蒸馏
    在这里插入图片描述其中,x,x′\\mathbf x,\\mathbf x'x,x 为属于同一类别的不同样本,P(y∣x;θ,T)=exp⁡(fy(x;θ)/T)∑i=1Cexp⁡(fi(x;θ)/T)P(y \\mid \\mathbf{x} ; \\theta, T)=\\frac{\\exp \\left(f_y(\\mathbf{x} ; \\theta) / T\\right)}{\\sum_{i=1}^C \\exp \\left(f_i(\\mathbf{x} ; \\theta) / T\\right)}P(yx;θ,T)=i=1Cexp(fi(x;θ)/T)exp(fy(x;θ)/T)TTT 为温度参数;注意到,θ~\\tilde \\thetaθ~ 为 fixed copy of the parameters θ\\thetaθ,梯度不会通过 θ~\\tilde \\thetaθ~ 回传到模型参数,从而避免 model collapse (cf. Miyaeto et al.)
  • total training loss
    在这里插入图片描述

在这里插入图片描述

Effects of class-wise regularization

  • Reducing the intra-class variations.
  • Preventing overconfident predictions. CS-KD 通过将同一类别其他样本的预测类别分布作为软标签来避免 overconfident predictions,这比一般的 label-smoothing 方法生成的软标签更真实 (more ‘realistic’)
    在这里插入图片描述在这里插入图片描述

Experiments

Classification accuracy

  • Comparison with output regularization methods.
    在这里插入图片描述
  • Comparison with self-distillation methods.
    在这里插入图片描述
  • Evaluation on large-scale datasets.
    在这里插入图片描述
  • Compatibility with other regularization methods.
    在这里插入图片描述在这里插入图片描述
  • Ablation study.
    (1) Feature embedding analysis.
    在这里插入图片描述(2) Hierarchical image classification.
    在这里插入图片描述
  • Calibration effects.
    在这里插入图片描述在这里插入图片描述

References

  • Yun, Sukmin, et al. “Regularizing class-wise predictions via self-knowledge distillation.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
  • code: https://github.com/alinlab/cs-kd

电竞游戏