威斯康星州麦迪逊 - NovuMind是一家位于加利福尼亚州圣克拉拉的创业公司,创立于2015年,曾任百度公司杰出科学家任武,准备透露其首款AI芯片NovuTensor的细节。
吴告诉EE Times,NovuMind本月早些时候从GlobalFoundries获得了第一批样品。吴说,采用“保守”的28纳米CMOS工艺技术制造,新生NovuTensor的表现甚至超出了他的预期。
通过运行ResNet-18基准测试,Wu声称他的团队已确认NovuTensor在吞吐量和延迟方面均优于Nvidia的Xavier芯片。(参见下面的NovuMind创建的比较表)。
竞争分析:NovuMind的NovuTensor vs. Nvidia的Xavier
(来源:NovuMind)
在吴的心目中,尽管该芯片的推出时间比原计划晚了一年多,但他的公司在团队验证NovuTensor架构和性能方面取得了良好的开端。随着NovuMind迁移到更先进的工艺节点,如16纳米或7纳米,“我们的优势将进一步延伸,”吴说。
Wu对NovuTensor的信心很大程度上源于一种专利设计,即“本机执行片上三维张量计算。”称其为“全新的方法”,新架构“避免了其他需要张量的芯片所固有的开销被展开成二维矩阵。“
根据NovuMind的说法,美国专利号10,073,816所涵盖的新架构“针对基于卷积的深度神经网络进行了优化”。
然而,与Nvidia的GPU不同,NovuTensor并非专为AI培训而设计。NovuTensor专门用于深度神经网络推理计算。Wu表示,最初可用于PCIe加速器卡的第一代NovuTensor将进入数据中心和网络边缘的其他应用程序来运行AI推理。
AI芯片疲劳?
随着新的AI芯片几乎每周出现,半导体分析师社区似乎已接近人工智能硬件疲劳状态。虽然我们谈到的分析师在发布时尚未向NovuMind介绍过,但怀疑主义仍然存在。
分析师对NovuMind的疑虑来源于以下问题:1)比较NovuTensor和Nvidia的Xavier芯片之间的性能是否公平?2)为什么NovuTensor本身可以执行片上张量计算是一件大事?
Tirias Research首席分析师Jim McGregor告诉我们,“判断NovuMind芯片的重要性真的很难。与其他初创公司一样,他们没有提供有关架构的更多细节。在我们拥有生产芯片和有效工作负载来测试所有这些芯片之前,它实际上只是一个规范的枪战。“
Linley Group的高级分析师Mike Demler很高兴神经网络推理引擎开发人员(例如,NovuMind)使用高性能培训平台(例如Nvidia)作为比较的起点。他指出,“还有许多其他[AI推理引擎]更合适。”
但最严厉的评论来自Linley Group的首席分析师Linley Gwennap。他质疑本土处理张量的优势的基本思想。Gwennap说,“我不知道'非本地'处理张量的任何重大开销。张量只是一个3D矩阵,可以很容易地切成一组2D矩阵并进行处理。“
他补充道,“关于竞争对手,我立即跳到ResNet-50,这是最受欢迎的CNN基准测试。”Gwennap说他“对NovuMind与Nvidia Xavier相比表现和效率更差感到失望”。我发现在其他一些测试中它们要好2倍。但考虑到这个市场的快速创新,即使比Nvidia好2倍,也不足以让人感动。“
为什么选择ResNet-50?
当EE Times回到吴并要求他回应Gwennap对ResNet-50的评论时,他并不担心。他说,“这是一个很棒的问题!事实上,在我看来,这个问题确实凸显了我们行业的核心问题之一。“
谈到Gwennap的评论,Wu质疑使用ResNet-50作为AI的首选基准。“它具有最佳准确度吗?它具有最低的延迟或吞吐量吗?“
回答他自己的问题,吴说,ResNet-50“肯定不是最精确的模型,因为ResNet-70,ResNet-101和ResNet-152都比ResNet-50好得多。对于吞吐量和延迟平衡的应用程序,ResNet-34是更好的选择。而对于超低延迟应用,ResNet-18肯定是可行的方式。“
在Wu看来,“ResNet-50 - 通过用1 x 1 xd卷积替换3 x 3 xd卷积 - 将计算限制问题转化为内存限制问题。”而不是解决内存问题,业界的解决方案是“使用更昂贵的内存选项,“他说。“具有大量片上存储器和像HMB2这样的快速片外存储器的巨大芯片在这个基准测试中会做得更好。”不利的一面是它“还带有巨大的价格标签。”
通过选择ResNet-50作为人工智能基准,“该行业现在基本上被迫以高成本解决了错误的问题,”吴说。
在NovuMind,Wu说:“我们设计的芯片具有性能,吞吐量,延迟和成本。对于对ResNet-50类分类准确度感兴趣的客户,我们提供ResNet-70作为更好的选择。它的精度优于ResNet-50,我们的芯片可以以大约400 FPS的速度运行,这比竞争对手的ResNet-50结果更快。“
原生张量处理?
行业分析师也承认,NovuMind的谈话要点之一--NonuTensor“本地执行3D张量计算”的能力 - 很难理解。这个技巧究竟对NovuTensor有什么作用?
Gwennap并不相信原生处理张量为NovuTensor提供了作为推理引擎的巨大优势。他说,“张量只是一个三维矩阵,可以很容易地切成一组二维矩阵并进行处理。”
吴回应道,“尽管如此,他还是错过了我认为的关键创新。”
他告诉EE Times,“是的,你可以将它切成一组2D。但切片过程是不必要和昂贵的。“他指出,”如果你逐个处理切片2D矩阵,你会失去很多并行性,并且芯片的利用率会下降。这就是为什么GPU需要大批量来更好地利用它的原因。“
Wu补充说:“如果你缓冲切片的2D矩阵并一次处理它们,那么缓冲的时间就会浪费掉。它仍然导致利用不足。更重要的是,切片操作本身[需要]大量内存写入,非常昂贵。这就是为什么其他人没有节能的原因。“
在Wu看来,3D张量卷积是可以应用于任何CNN框架训练模型推断的最小核心。通过使用非常小的(3 x 3)卷积滤波器,NovuTensor可以最有效地执行“逐层”计算,他告诉EE Times。
BDTI总裁杰夫比尔是一位分析师,他认为吴的真正发明在于他开发的处理器“可以在AI中最基本的数据类型上运行 - '张量'。”比尔称之为“深度学习的自然单位”他解释说:“NovuTensor是一种”特殊处理器“,经过优化,可以在3D结构中进行计算。它可以直观地将“张量”作为抽象单元处理,而无需将其切割成2D矩阵来理解。
比尔承认,“在我们开始学习人工智能之前,我们很多人甚至不知道张量是什么。”相反,他指出,“我们已经对GPU所需的矩阵数学有了很多了解。”
比尔明确表示他尚未对NovuTensor进行独立评估。然而,“Ren Wu有两件事,这让我想要关注NovuMind,”他说。
首先,Ren Wu是一位在AMD工作的世界级处理器设计师。其次,任武也因其早期关于人工智能的研究而闻名,因为他在计算机上对中国象棋游戏进行了系统研究。他开发了中国象棋(象棋)计算机程序,两次成为世界冠军,十多年来一直主导着计算机象棋领域。“你不会经常将这两者结合起来 - 世界级的计算机架构师和世界级的国际象棋程序开发者 - 在一个大脑中。”
应用在
被问及NovuMind的AI客户和合作伙伴时,吴说他的团队正与许多公司合作,这些公司仍然无名。最初的NovuTensor应用程序将是用于监视和图像分析以及数据中心的边缘服务器。Wu表示,NovuTensors将在数据中心进行更便宜的AI推理,延迟和功耗更低。
Tirias Research的McGregor告诉我们,NovuMind“远非这个云推理领域唯一的公司。Gyrfalcon是另一家声称具有极高性能和极低功耗的公司。“
Bier说,当然,NovuTensor不是通用的AI处理器。它被“调整为有效的图像处理,例如每瓦特每秒的图像数量”。
NovuMind正在探索的另一个AI细分市场是自动化机器的广阔市场 - 从工厂车间的合作机器到农业无人机。这个想法类似于Nvidia 最近为所有机器人开枪的举动。Nvidia正在推动Nvidia AGX,这是一系列围绕其新Xavier处理器构建的嵌入式AI高性能计算机,适用于大量机器人和自动机器。
Wu告诉我们,一旦NovuMind能够通过使用更精细的节点(例如7 nm ICfans)来缩小其NovuTensor的尺寸,他希望将其原生3D张量卷积引擎视为可以放入各种端点节点设备的IP核 - 用于工业传感器或消费设备。
带有NovuTensor芯片的PCIe AI加速器板。任武告诉我们,NovuMind正在使用这块板来运行基准测试。(来源:NovuMind)
吴表示,NovuMind计划在未来几周内将NovuTensor芯片作为“着名的第三方实体”进行基准测试。
基准测试完成后,公司计划提供完整的SDK以及NovuTensor硬件。芯片将立即供选择的客户使用。NovuMind计划在1月份公开发售PCIe加速器卡,单个NovuTensor芯片售价999美元,4个芯片售价2,999美元。