加速深度模型的训练和推理在实践中至关重要。现有的深度学习框架通常专注于优化训练速度,而较少关注针对推理的优化。实际上,模型推理在计算上与训练不同,例如训练过程中每个梯度更新步骤都会刷新参数,但推理过程中保持不变。模型推理的这些特殊性为其优化提供了新的机会。在本文中,我们提出了一个硬件感知优化框架,即啄木鸟-DL(WPK),从图优化、自动搜索、特定领域语言(DSL)编译器技术和系统级探索的角度,利用多种联合优化来加速推理。在WPK中,我们分别研究了两种新的基于遗传算法和强化学习的自动搜索方法,以猎取针对特定硬件的最佳操作码配置。一个定制的DSL编译器被进一步附加到这些搜索算法中,以生成高效的代码。为了创建优化的推理方案,除了我们自动生成的代码外,WPK还系统性地探索第三方库中的高速运算符实现,并挑出每个运算符的最佳实现来使用。大量的实验表明,在Tesla P100 GPU上,我们在单个卷积算子上可以实现比cuDNN最高提速5.40,比TVM最高提速1.63,在端到端模型推理上,运行速度是TensorRT的1.18倍。
https://arxiv.org/abs/2008.04567
Woodpecker-DL- Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations.pdf