事件背景

在人工智能(AI)技术迅猛发展的当下,大规模AI模型训练的需求与日俱增。高效的数据通信成为了提升AI模型训练效率的关键环节。混合专家模型(MoE)作为一种高效的大模型架构,通过动态分配专家网络处理不同任务,显著提升了模型容量与计算效率。然而,其复杂的通信需求(如专家间的数据分发与合并)对底层通信库提出了高吞吐、低延迟、资源利用率等多重挑战。

DeepSeek在今年2月的“开源周”活动第二天发布了DeepEP,这是全球首个专为混合专家(Mixture of Experts, MoE)模型设计的开源EP(Expert Parallelism)通信库,填补了MoE模型在分布式训练与推理场景中缺乏专用通信工具的空白。DeepEP凭借其突破性的方法提升了300%的通信效率,成功解决了MoE架构大模型对英伟达NCCL的依赖问题。但该技术在成本较低、适用面更广的RoCE网络环境中表现不佳,限制了其在更广泛场景的应用,这一痛点引发了开源社区的持续讨论。

腾讯的优化措施

腾讯星脉网络团队基于在RoCE网络领域的深厚积累,在DeepEP开源后便展开技术攻关,发现两大关键瓶颈:一是对于双端口网卡带宽利用率不足,二是CPU控制面交互存在时延。针对这些问题,腾讯采取了以下优化措施:

  1. 带宽分配智能化:通过拓扑感知的多QP建链技术,实现了带宽分配的智能化,优化了双端口网卡的带宽利用率,确保每条数据通道都能得到充分使用,避免了带宽的浪费。这就好比一个智慧交通管理系统,为不同的“车流”(数据)规划了专属的“车道”(QP绑定端口),确保双车道物理通道(网卡端口)的车流均衡,从根本上避免了拥堵。
  2. 绕过CPU控制面:腾讯基于IBGDA(InfiniBand GPU Direct Accelerator)技术,使得“控制面”的操作可以绕过CPU的“中转”,进一步降低了延迟和能耗,提升了整体通信效率。同时,让每个GPU都能同时用多个“通道”来发送数据,并且这些通道会自动分配数据,避免某个通道过于繁忙而其他通道闲置。
  3. 原子化信令协同:为了解决GPU直接“对话”时存在的传输顺序混乱难题,腾讯提出了“QP内时序锁”机制。每次传输数据时,通过网卡硬件自动生成数字指纹(类似快递单号加密),收件方必须按正确顺序“签收”,确保多个GPU间的数据传输能够精准、按顺序完成,即使同时处理1000多个数据传输任务,DeepEP也能自动理顺先后顺序。

性能提升的结果参数

经过腾讯技术团队的优化,DeepEP通信框架在多种网络环境下均实现了显著性能提升。经测试,优化后的通信框架性能在RoCE网络环境提升100%,IB网络环境提升30%。具体而言:

  • RoCE网络环境:优化后的DeepEP在RoCE网络环境下性能实现了翻倍,这意味着在使用该网络环境进行AI模型训练时,数据传输速度可以翻倍,极大地缩短了训练时间,为依赖于RoCE网络的企业带来了重大利好。
  • IB网络环境:在IB网络环境下,优化后的DeepEP通信框架性能提升了30%。尽管提升幅度相对较小,但考虑到IB网络本身已经具备较高的性能,这一改进仍然非常可观,进一步提高了数据传输效率,有助于企业更好地利用现有的硬件资源。

合作的意义

  1. 推动技术创新与发展:腾讯与DeepSeek的合作是开源社区与大型企业紧密合作的典范,展示了技术团队之间协作的重要性。通过技术的互助与交流,行业整体的技术水平得以提升,推动了AI的快速发展。这种开放合作的精神为其他企业提供了借鉴,鼓励更多企业参与到开源项目中来,共同推动技术创新。
  2. 为企业提供高效解决方案:优化后的DeepEP通信框架为企业开展AI大模型训练提供了更高效的解决方案。更高的数据传输效率意味着更快的模型训练速度,从而缩短产品上市时间,提升企业的竞争力。这对于那些依赖于AI技术的企业来说,无疑是一剂强心针。
  3. 树立行业标杆:腾讯的这一技术贡献得到了DeepSeek的公开致谢,称其为一次“huge speedup”的代码贡献。这不仅是对腾讯技术团队努力的认可,也为行业内的技术交流与合作树立了良好的榜样。未来,随着更多类似的技术优化与创新出现,整个行业的技术生态将变得更加丰富多彩。

对普罗大众的好处

  1. 加速AI应用普及:随着AI大模型训练效率的提升,AI技术的发展将更加迅速,更多的AI应用将得以快速落地。这将为普罗大众带来更加智能、便捷的生活体验,例如在智能客服、语音交互、实时推荐等领域,用户将能够获得更快速、准确的服务。
  2. 促进相关产业发展:AI技术的进步将带动相关产业的发展,创造更多的就业机会。同时,也将推动各个行业的数字化转型和升级,提高整个社会的生产效率和经济效益。
  3. 推动科技进步与社会发展:腾讯与DeepSeek的合作成果将为科技进步注入新的动力,推动社会向更加智能化、数字化的方向发展。这将有助于解决更多的社会问题,提高人们的生活质量和幸福感。

综上所述,腾讯优化DeepSeek的DeepEP通信框架是一次具有重要意义的技术创新,不仅提升了AI大模型训练的效率,也为行业的发展和社会的进步做出了积极贡献。相信在未来,随着技术的不断进步,AI技术将为我们带来更多的惊喜和改变。