传统FPGA使用DSP模块有着相对有限的表现力,具体表现在不高效的数值精度支持、需要消耗额外逻辑和Memory资源、性能受限于FPGA布线。
Speedster7t FPGA搭载全新的机器学习处理器(MLP),将计算、存储和程序集于一身,使其支持阵列式乘累积计算架构、内嵌缓存、可配置以支持演进中算法、支持广泛各种不同整点和浮点格式。大规模的可编程计算单元平行阵列是其核心,可提供业界最高的、基于FPGA的计算密度,另外,也具有最高的能效比。
MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。
MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。
高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。
“美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。”
非凡的存储带宽需要好的“后卫”才能真正发挥出其性能。Speedster7t器件包括业界最高性能的接口端口,以支持极高带宽的数据流。
Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。
Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT),无论是低成本客户还是高端客户,均可满足。而FPGA+如此众多的优点也可“随意驰骋”在AI、图像处理、语言处理、Database加速、加密算法、网络处理方案上。
据Achronix表示,支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和SpeedchipFPGA多晶粒封装芯片(Chiplet)。相关配套软件将于第三季度面世,更加高级的语言让设计开发更具表现力,第一批用于评估的器件和开发板也将于2019年第四季度提供。