大模型改变算力，新华三加码算力集群能力

钛媒体APP 2023-06-21 18:21:40

算力与应用的发展，是一个不断上升、循环往复的过程，每当算力提升到一个新高度，总是会催生新的应用，新应用出现又需要更高的算力来支持。大模型就是算力发展历史上的一个关键节点。

“大家可以把‘算力自由’想象成第二次工业革命，电气化时代，爱迪生发明灯泡是一个标志性时刻，但最关键的是谁能够把产品做出来，普惠大众。”新华三集团副总裁、计算存储产品线总裁徐润安表示。

大模型对算力的改变才刚刚开始，大模型将来会消耗多少算力，或者说产生大模型算力的方法会有多少种，现在都是未知数。

(资料图)

“我相信在不远的将来，整个算力市场都会带来新一轮的革命，不论是硬件还是软件，所有的目的都是为了源源不断地提供算力给AI，当然我也相信，AI也会创造出更多新的方法，提高算力使用的效率”，徐润安补充表示。

而目前，大模型对算力的改变已经有迹可循。

算力走向全局化

传统计算以集中式架构为主，一定程度上存在复杂、低效、僵化的问题，但随着分布式架构重塑算力形态，需要在扩展性、管理性、安全性等方面实现全面升级，并将向着高效、低碳、智能的方向加速发展。

新华三集团计算存储产品线副总裁刘宏程表示，“大模型到来之后，今天谈到的算力，更多是计算、存储、网络一体化解决方案的融合。我们从客户那了解到，只卖GPU不够，建立一个全方位的解决方案，需要把服务器、存储和网络综合形成一个整体解决方案，才能帮助用户建立大模型环境，最终落实到行业应用中。”

上游芯片厂商每一次的产品更新，都意味着下游服务器厂商需要重新做一次研发，例如英伟达GPU从Ampere架构更新到Hopper架构，新华三的服务器R5500 G5也随之更新到R5500 G6。

其中，除了GPU的变化，CPU也更新到下一代， PCle从过去的Gen4到Gen5，网络从过去的100G和200G为主，升级为200G和400G为主。此外，新的网络互联、xPU、DPU等技术也变得越来越成熟，这就要求服务器厂商有相对完善的储备。

服务器本身就是系统级工程，大模型的改变是将服务器集群视作整体，需要在更大范围做系统级别优化。

刘宏程介绍，“从我们现在看到的用户实践，客户要求无损网络，RDMA也好，RoCE也好，不能丢一个数据包。丢一个数据包，有可能前面几十个小时训练的数据要重算，用户算力的利用率会降到非常低的水平，我们见过客户因为调度不灵活，算力甚至只用了5%、10%，服务器就在那空转。”

“每跨一台服务器，性能就会有一定的削减，这个削减来源于服务器之间互联和数据之间的调度，比如存储数据怎么获得，两台不同的服务器之间网络带宽和延迟是多少，这些都是整个AIGC解决方案里面需要综合考虑的部分。”他说。

此外，高能耗也是大模型算力的一个客观限制，很多客户一个机柜里只放一台GPU服务器，甚至两个机柜放一台，就是因为能耗问题。根据ODCC的数据显示，2020年我国数据中心能耗总量为939亿千瓦时，碳排放量为6464万吨。预计到2030 年，能耗总量将达到3800亿千瓦时左右，碳排放增长率将超过 300%。如何做到绿色低碳，也是大模型算力的一个瓶颈。

“一体·两中枢”，新华三补短板

以云计算为代表的厂商，在大模型算力集群方面刷足了存在感，这就要求服务器厂商补充相应的能力，近年来已有迹象，例如云服务商和服务器厂商在私有云领域直接竞争，大模型则将这一竞争推到更深层次，新华三于去年底推出的“一体·两中枢”智慧计算体系，增加了竞争筹码。

“一体”是指新华三以CPU、GPU和xPU为核心，构造出的覆盖通用计算、异构计算等全场景的多元计算体系，并在近年通过液冷等低碳技术的融合，构建起高效、低碳数据中心的算力基石；

“两中枢”分别对应智能算力中枢（傲飞）和智能管理中枢，新华三智能算力中枢（傲飞）能实现传统科学计算与AI计算深度融合，同步实现科学计算批量作业和AI容器作业的调度编排，满足教育、科学、能源、制造等高性能计算场景需求。

智能管理中枢提供部署、调优、节能、诊断、退役都能能力，为数据中心服务器提供全生命周期智能管理，能帮助企业提高运维效率，降低运维成本，客户可根据具体的业务需求对服务器进行灵活的配置部署，从而打造自己专属的运维环境。

可以理解“一体”是新华三的算力基础，而“两中枢”拓展了智算算力的集群能力，对应的是服务器集群的管理。

譬如ChatGPT参数达到了1750亿，每个参数如果只算2个字节，意味着需要8块最高端的GPU卡，才能容下所有的参数，实现灵活的应用，进一步驱动算力从通用转向GPU、NPU或者xPU等综合算力，高并发的情况需要更多差异化算力单元来满足。

“我们看到调度比较有效率的就是64卡和128卡，再往高其实已经开始有衰减，需要跨另外一个网络做调度。”刘宏程说。

据了解，新华三大部分客户所使用的GPU集群数量在64、128和256卡级别，衰减相对比较弱，现有的网络限制比较接近128卡的算力限制。举例来看，现在网络架构可能8000个端口，一般一个计算模块对一个网络端口进行调度，8000个端口对应128个GPU，超过这个数量，就跨入另外一个网络，需要两台交换机。

“当前GPU市场较为火热，但是NPU和xPU的技术在中间也起到了非常关键的作用”，刘宏程说，“一体”就是多元算力，新华三之前提出的观点得到了验证，让用户根据场景来选择不同的算力单元，满足不同的计算需求。

（本文首发钛媒体APP 作者｜张帅，欢迎添加作者微信mr3right交流）