尊龙凯时 尊龙娱乐 尊龙体育

RL后训练步入超节点时AG尊龙凯时- 尊龙凯时官方网站- APP下载代!华为黑科技榨干算力一张卡干俩活

发布时间:2025-06-08 12:06:33  浏览:

  尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP【新智元导读】RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次,华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资源利用率翻倍,还打破了同步算法限制,让训练速度再提升50%。

  在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。

  爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后训练点石成金。

  相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交互,直接塑造了LLM在复杂任务中的推理效能。

  当前,RL后训练阶段已经吃掉了训练全流程20%的算力,未来会飙升到50%,直接影响模型的性能和成本。

  对此,华为团队拿出「RL Fusion训推共卡」和「StaleSync准异步并行」两大黑科技,把训练效率和资源利用率拉满。

  · RL Fusion: 让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻倍。

  · StaleSync:打破了同步限制,让集群扩展效率超90%,训练吞吐再提50%。

  CloudMatrix超节点,就像大模型的「超级加速器」,让百亿、甚至千亿级模型训练更快更省。

  不论是语言模型的对话优化,还是多模态模型的复杂任务适配,RL后训练都在提升模型精度、泛化性、用户体验方面,发挥着不可替代的作用。

  尤其是在现有主流On-Policy算法下,训练与推理的严格交替导致了资源利用率低下。

  总的来说,RL后训练作为大模型训练最后冲刺阶段,面临着两大不容忽视的挑战。

  在大模型后训练过程中,Actor模型的训练与推理(生成)过程构成主要负载。

  在传统「训推分离」架构下,主流的On-Policy策略要求训练和推理任务交替执行,互相等待,导致大量计算资源处于闲置状态。

  这种「轮流休息」的模式,在小规模集群场景下已然造成显著浪费,若在千卡/万卡集群中更是放大为「算力黑洞」,推高了LLM后训练成本。

  另一方面,随着MoE模型普及,专家并行(EP)、张量并行(TP)、数据并行(DP)等多模型异构并行策略组合,使得任务调度复杂度呈指数级增长。

  而现有框架在大规模集群中,难以让其实现高效协同,进而导致了扩展效率显著下降。

  如何通过软硬协同打破资源瓶颈,释放潜在的红利,成为华为团队聚焦突破的关键方向。

  针对RL后训练资源利用率低的问题,华为团队深入剖析异构模型和多任务场景的负载特点,提出了创新性的RL Fusion训推共卡技术。

  RL Fusion支持训练推理共卡、全共卡等多种灵活部署模式(如图1),可实现推理阶段资源调度的精细化可控管理。

  它还支持张量并行(TP)、数据并行(DP)、流水线并行(PP)等多维并行策略的动态无缝切换,实现计算资源「一箭双雕」,即在同一计算资源上执行Actor模型生成和训练2个任务。

  值得一提的是,在小规模场景下,RL Fusion还能把Reference及Reward模型的资源「榨干」,进一步实现「一箭四雕」,效率直接拉满。

  此外,针对大规模高稀疏比MoE模型,华为通过对训推态内存进行极致分析,首次提出了训推内存0冗余切换,实现训推EP动态切换,如图2所示。

  在训练态及推理态切换过程中,通过「分桶」管理参数,可消除由于EP变化造成的冗余内存。

  同时,推理时把训练的优化器及梯度,完全卸载到主机侧,尽可能将NPU内存留给推理态,保证长序列下推理阶段吞吐(如图3所示)。

  不仅如此,通过对训推共卡中权重通信、内存加卸载进行系统性优化后,训推切换过程优化到秒级,快如闪电。

  由此,RL Fusion能让强化学习后训练集群利用率倍增,成本省一大截。

  针对大规模集群扩展性低的问题,华为团队摒弃全同步迭代方式,设计了准异步机制StaleSync(如图4所示)。

  StaleSync机制能容忍梯度「陈旧性」,让不同RL阶段的任务在「陈旧度阈值」内并行执行。

  基于这一特点,新的后训练系统结合了共置和分离架构的优势,平衡了各个RL计算任务的资源需求,从而提高了整体硬件资源的利用率。

  此外,在Actor Rollout过程中,长尾样本的存在导致了效率的降低。

  当生成结束的样本达到一定阈值时,数据立刻流向下一阶段的计算任务,允许未完成的推理样本的训练存在一定滞后性,从而提高了整体后训练吞吐。

  在保证模型精度的前提下,StaleSync方案使系统整体训练吞吐量提升了50%。

  为了满足StaleSync的数据调度与管理要求,研究团队专门设计了分布式数据队列DistQueue。

  为了提高通信效率,DistQueue采取了分层数据传输与零冗余通信两项技术,缓解了数据系统压力。

  以Pangu 718B-MoE训练并行策略为例(TP8,EP4,PP16),引入分层数据传输可将DistQueue的负载降低为1/128,从而支持后训练规模的进一步扩展。

  在后训练中,传统的样本Padding补齐方案存在大量冗余通信,降低了通信效率。

  在盘古长序列训练集实测,研究团队发现上述优化可降低80%以上的通信量,有效支撑大规模集群训练的扩展效率。

  RL Fusion与StaleSync的协同优化,形成了「资源复用+任务并行」的双重保障体系,显著提升了效率。

  RL Fusion训推共卡,能够消除RL后训练中模型级空泡,提高资源利用率,单个超节点吞吐提升了78.5%。

  再结合StaleSync准异步技术,可以实现35k token/s吞吐效率,整体可提升1.5倍性能。

  在AI风起云涌的当下,RL后训练正成为大模型突围的关键,而效率是决胜的王牌。

  昇腾超节点以RL Fusion和StaleSync两大杀招,攻克算力浪费和集群扩展的瓶颈,带来了高效、高扩展、高通用性的集群调度与融合方案。

  一张卡干俩活、流水线永不停,单节点速度狂飙2.5倍,集群扩展效率突破90%。

  它如同一台「加速引擎」,正为百亿、千亿级大模型的后训练注入强劲动力,点燃下一代AI效率革命的火花。

  05月29日,西江流域今年11月来水总体较多年同期或偏少一到二成,爱游戏app体育官网入口,金沙赌玚官方网址,红心游戏,bwin电竞

  05月29日,外交部副部长陈晓东谈中方对中非合作论坛建设期待,乐虎国际真人投注,欧亿注册登录,kok体育下载,欧洲杯比赛时间

  05月29日,(新春走基层)新成昆铁路动检列车成“年货专列” 丰富川滇两地年味,乐鱼体育官方,凤凰体育网,188体育平台线上注册,金宝搏亚洲线日郑州保洁阿姨“客串”讲解员:享受分享知识的快乐AG平台游戏大厅bob电子游戏平台明豪棋牌巴黎人app登录

  05月29日22万种中外图书将亮相第三十届北京国际图书博览会竞技宝官网测速站网址im体育官方app皮皮斗地主官方下载皇冠app软件下载

  05月29日【这个城市有点潮】贵港:今夕是“荷”夕 这座城怎么“荷”里“荷”气的正规游戏棋牌18新利平台登录皇冠体育网上轮盘99hg3n皇冠登录……

  05月29日,三部门联合发文 新型电力系统建设提速,爱游戏官网登录入口,金佰利真人国际娱乐,爱游戏在线注册,必威手机版官网

  05月29日医保三重制度为“健康中国”护航18luck新利爱游戏电竞官网真钱国际捕鱼游戏厅云顶娱乐官网下载

  05月29日,2024年中国保龄球巡回赛暨北京东城公开赛落幕,九五至尊线上网站,波克捕鱼兑换码怎么搞,金沙澳门s6221com,澳门皇冠盘口

  05月29日,文化名人谈文化丨麦家:“解密”复杂人性,leyu乐鱼app官方网站,可提现的彩票平台,大玩家下载,M6娱乐

  05月29日,国管局、中直管理局发文规范和加强中央和国家机关新能源汽车配备和使用管理,凯发娱乐官网是多少,新澳门棋牌游戏开元,凯发官网平台,百姓彩票网官网下载

  05月29日公安部:电子行驶证将于7月1日起在全国60个城市先行试点尊龙外围官网葡京娱乐代理开户杏鑫娱乐平台网络游戏家族排行榜

  05月29日商务部新闻发言人就欧盟有关单独与相关企业进行价格承诺谈判的表态答记者问365体育一样盘口mgm怎么注册18新利体育最大网上娱乐平台

  05月29日【这个城市有点潮】保山:高黎贡山脚的“咖”味城市PG电子游戏在线买球千赢首页登陆LETOU体育国米ag改名九游会

  月亮与蛋糕2,利率8% 中年人跑去厄瓜多尔存钱迎“世界读书日” 《少年中国科技·未来科学+》丛书在北京发布皇冠网站是多少ob体育官方网站分分彩平台网站游客登录免费送2000试玩金

  梅西3月来华官宣!,习主席的欧洲之行春运高峰遇2009年来最强雨雪冰冻考验 全国道路安全出行天气地图助你平安回家金沙客户端app下载爱游戏下载appim体育网址是多少乐鱼电子平台

  我才不要和你做朋友呢,满小饱天官赐福新年放大招铸牢中华民族共同体意识交响音乐会在北京举办三张牌官方下载捕鱼游戏游戏云开体育网页版入口澳门巴黎国际真人影视网站

  锦绣安宁,特朗普刑事案特别检察官将辞职天津市第九届市民文化艺术节启幕博雅德克萨斯扑克官网新宝5注册登录测速BETVLCTOR伟德app下载正规网投彩票平台

  46岁知名麻醉科医生去世,唐文丽 女版胖猫首趟江西瑞金—美国洛杉矶全程铁海联运班列开通运营沙巴在线娱乐澳门威尼斯电玩星际线上注册尊龙官网是多少

  《碟中谍8》首支预告公布,去有风的地方内蒙古破获一起特大贩毒案 收缴1.7公斤365足球体育app下载365bet体育在线手机aPP线上买球平台登录