要提高算力,我们通常首先想到提高单个芯片的处理速度,但实际上,芯片之间的通信速度同样关键。在计算机网络通信中,带宽和延迟是两个关键衡量指标,而对于AI网络来说,这一点同样适用。
对于训练上千亿甚至万亿参数的大规模模型来说,单个GPU的处理能力已经显得微不足道,计算任务往往需要由大型显卡集群协同完成。
然而,当前GPU内存容量和性能正在迅速增长,但输入/输出(I/O)性能的增长却相对滞后,这成了AI算力提升的重要瓶颈,导致了大量计算资源未被充分利用,造成了资源浪费。
由于传统PCIe协议的发展依然落后于时代需求,英伟达转而开发专有接口协议NVLink来应对这一问题,也借此掌控了行业内的话语权。
也有英特尔、AMD、谷歌、微软等公司开发行业开放标准UltraAcceleratorLink与此对抗。
与之不同是,一家名为Enfabrica的初创公司则选择开发网络互联芯片,通过提供一种替代的扩展方式,融入现有AI算力体系中,以实现更高效的数据传输,从而减少算力闲置,整体上提高算力系统的利用率。
2024年11月19日,在2024年超级计算大会(SC24)上,该公司宣布,继去年获得包括NVIDIA在内的1.25亿美元B轮融资后,已完成1.15亿美元的C轮融资。
这轮融资由SparkCapital领投,ARM、思科、三星等参投等,并得到了现有投资者的支持。
同时,Enfabrica还宣布将于2025年第一季度推出其3.2Tbps加速计算结构(AcceleratedComputeFabric,ACF)SuperNIC芯片和试点系统。
据了解,ACFSuperNIC芯片采用了一种融合纵向扩展(Scale-Up)和横向扩展(Scale-Out)的混合架构,形成了一个多维度的高带宽域。
传统网络架构通常依赖于标准以太网网络和PCIe交换机来实现扩展,但这种方式会遇到带宽瓶颈和延迟管理的问题。
而ACFSuperNIC通过结合高基数的800、400和100千兆以太网接口、32个网络端口和160个PCIe通道,通过更高效的两层网络设计,能够支持超过50万GPU的AI集群,从而实现集群中所有GPU的最高横向扩展吞吐量和最低的端到端延迟。
ACFSuperNIC的设计目标是用其加速计算结构替代传统的多层网络基础设施,实现计算、内存和网络资源的可组合AI结构。
据Enfabrica的联合创始人Sankar解释,该架构充当中心辐射模型,能够分解和扩展任意计算资源。
无论是CPU、GPU、加速器、内存还是闪存,它们都可以连接到这个中心,从而使ACF-S有效地充当这些计算资源的聚合I/O结构设备。
这种集线器式架构为计算、内存和网络资源的灵活组合提供了基础,实现了更高的可扩展性和计算效率。
该芯片基于台积电的5纳米FinFET工艺上制造,采用标准的硬件和软件接口,包括多端口800GbE网络、高性能PCIeGen5,以及+接口。
在单个硅片中集成了多太比特交换和异构计算与内存资源之间的桥接,通过集体内存分区,在多个端点之间实现低延迟零拷贝数据传输,提供更高效的主机内存管理和突发带宽,从而共同提高GPU服务器群的整体效率和每秒浮点运算(FLOP)的利用率。
并且,ACFSuperNIC所采用的标准接口,可以在不改变设备驱动程序和协议的情况下,在到来之前实现内存扩展和共享,同时未来也兼容标准。
这为数据中心运营商提供了巨大的运营效率优势,使他们可以在由来自多个供应商的GPU和加速器组成的AI计算队列中部署通用的高性能后端网络结构。
与此同时,该芯片所具有的“弹性消息多路径”(RMM)技术,可大规模提高AI集群的弹性、可维护性和正常运行时间,消除由于网络链路故障导致的AI作业停滞,从而提高有效训练时间和GPU计算效率,无需更改AI软件堆栈或网络拓扑。
Enfabrica称,ACFSuperNIC使客户能够在相同的性能点上将大型语言模型(LLM)推理的GPU计算成本降低约50%,深度学习推荐模型(DLRM)推理的成本降低75%。
该芯片将于2025年第一季度开始供货。该公司预计,到2027年,其SFA芯片的互连市场规模将达到200亿美元,主要目标客户包括公有云和私有云运营商、HPC系统制造商和网络设备制造商。
未来,随着AI模型的规模不断扩大以及算力需求的提升,AI芯片互联市场或将继续壮大。
根据Dell'OroGroup的数据,到2027年,人工智能基础设施投资将使数据中心资本支出增加到5000亿美元以上。
与此同时,根据650Group的数据,到2027年,数据中心在计算、存储和网络芯片上的高性能I/O芯片支出预计将翻一番,达到200亿美元以上。
除了Enfabrica之外,思科也于去年推出了支持AI网络工作负载的SiliconOneG200和G202硬件系列。
其他竞争对手如Broadcom和Marvell也在积极研发高性能交换机,博通的Jericho3-AI架构甚至可以连接多达32,000个GPU。在中国,国数集联也于今年4月推出了业界首款CXL多级网络交换机参考设计。
背靠英伟达的Enfabrica能否实现其目标,还有待市场的检验。
参考资料:
1.
2.
3.(1).
4.
5.
运营/排版:何晨