Loading...

提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

GoodNav 于 11 月 3 日报道,字节跳动豆包大模型团队联合香港大学公开了研究成果 —— HybridFlow

官方表示,HybridFlow(开源项目名称:veRL)是一个灵活且高效的大模型强化学习(RL)训练框架,能够兼容多种训练和推理框架,并支持灵活的模型部署以及多种强化学习算法的实现。

该框架采用混合编程模型,结合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,能够更有效地实现和执行多种强化学习算法,从而显著提升训练的吞吐量,并减少开发和维护的复杂度。

提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

▲ 3D-HybridEngine(训练推理混合技术)一次迭代的流程

实验结果表明,在不同的模型规模和强化学习算法下,HybridFlow 的训练吞吐量相比其他框架提高了 1.5 倍到 20 倍。

目前,该论文已经被 EuroSys 2025 接收,代码仓库也已公开,相关链接如下:

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...