Neural Network Compression Framework for fast model inference
在这项工作中,我们提出了一个新的神经网络压缩与微调框架,我们称之为神经网络压缩框架(NNCF)。它利用了各种网络压缩方法的最新进展,并实现了其中的一些方法,如稀疏性、量化和二值化。这些方法允许得到更多硬件友好的模型,这些模型可以在通用硬件计算单元(CPU、GPU)或特殊的深度学习加速器上高效运行。我们表明,所开发的方法可以成功地应用于广泛的模型,以加快推理时间,同时保持原有的准确性。该框架可以在随其提供的训练样本中使用,也可以作为一个独立的包,以最小的适应性无缝集成到现有的训练代码中。目前,NNCF的PyTorch版本作为OpenVINO训练扩展的一部分,可以在这个https URL上找到。
https://arxiv.org/abs/2002.08679
Neural Network Compression Framework for fast model inference.pdf