提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架
GoodNav 于 11 月 3 日报道,字节跳动豆包大模型团队联合香港大学公开了研究成果 —— HybridFlow。
官方表示,HybridFlow(开源项目名称:veRL)是一个灵活且高效的大模型强化学习(RL)训练框架,能够兼容多种训练和推理框架,并支持灵活的模型部署以及多种强化学习算法的实现。
该框架采用混合编程模型,结合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,能够更有效地实现和执行多种强化学习算法,从而显著提升训练的吞吐量,并减少开发和维护的复杂度。
实验结果表明,在不同的模型规模和强化学习算法下,HybridFlow 的训练吞吐量相比其他框架提高了 1.5 倍到 20 倍。
目前,该论文已经被 EuroSys 2025 接收,代码仓库也已公开,相关链接如下:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...