问题描述及复现步骤:
在简单的自定网络结构中,需要实现(B, C, H, W) 降维成 (B, C, W)使用ReduceMax OP + Reshape OP来实现此功能,发现ReduceMax OP是在CPU上运行的,耗时很大(约140ms)。