提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

1.4K 0 0

GoodNav 于 11 月 3 日报道，字节跳动豆包大模型团队联合香港大学公开了研究成果 —— HybridFlow。

官方表示，HybridFlow（开源项目名称：veRL）是一个灵活且高效的大模型强化学习（RL）训练框架，能够兼容多种训练和推理框架，并支持灵活的模型部署以及多种强化学习算法的实现。

该框架采用混合编程模型，结合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，能够更有效地实现和执行多种强化学习算法，从而显著提升训练的吞吐量，并减少开发和维护的复杂度。

▲ 3D-HybridEngine（训练推理混合技术）一次迭代的流程

实验结果表明，在不同的模型规模和强化学习算法下，HybridFlow 的训练吞吐量相比其他框架提高了 1.5 倍到 20 倍。

目前，该论文已经被 EuroSys 2025 接收，代码仓库也已公开，相关链接如下：

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

1.5K

GoodNav.net

935

GoodNav.net

225

GoodNav.net

245

GoodNav.net

2.3K

GoodNav.net

1.3K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...