Loading...

字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开,4 月 17 日开放接口

GoodNav 在 4 月 14 日发布消息,根据信息来自豆包大模型团队,字节跳动最新的思考模型 Seed-Thinking-v1.5 的技术细节今天已被公开。该模型将于 4 月 17 日通过火山引擎开放接口供用户进行体验。

该模型在数学、编程、科学推理等专业领域以及创意写作等多种常规任务中表现优异。同时,模型采用 MoE 架构,拥有 200B 的总参数,其中激活参数为 20B,相较于 DeepSeek R1,其推理成本降低了 50%,具备显著的推理成本优势。

  • 技术报告链接:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

模型各方面的表现:

  • 专业领域:在数学推理(AIME 2024 得分 86.7,达到 OpenAI o3-mini-high 的水平)、编程竞赛(在 Codeforces pass@8 中达到 55.0%,接近 Gemini 2.5 Pro 的表现)、科学推理(GPQA 得分 77.3%,接近 o3-mini-high),均达到了或接近行业最高水平。

  • 通用任务:在与人类评估相比,表现相比 DeepSeek R1 提升 8%,能够涵盖多种场景需求。

  • 成本优势:每次推理的成本相比 DeepSeek R1 降低 50%,实现了性能与效率的平衡。

字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开,4 月 17 日开放接口

数据体系:融合可验证与创意性数据

针对推理与生成任务的不同需求,团队优化了数据处理策略:

  • 可验证数据(如数学与编程题):经过百万级数据的三重清洗(人工筛选 → 模型过滤 → 多模型验证),保留了 10 万道高难度题目,并设计了答案整数化改造和离线沙箱验证机制,以确保模型输出反映真实的推理过程;

  • 非可验证数据(如创意写作):以豆包 1.5 Pro 的训练集为基础,剔除了低价值样本,并采用两两对比奖励法,以优化生成质量;

  • 全新评测基准:构建了超难数学数据集 BeyondAIME(包含 100 道无答案题干),以解决现有测试区分度不足的问题。

奖励模型:双轨体系校准训练方向

团队提出了双轨奖励机制,以兼顾“对错分明”与“见仁见智”的任务:

  • 可验证任务:开发了两代验证器(Seed-Verifier → Seed-Thinking-Verifier),将字符匹配升级为推理步骤逐行对比(训练/测试集准确率超过 99%),避免模型“奖励欺骗”;

  • 非可验证任务:引入了 pairwise 对比训练,通过千万次“AB 测试”,捕捉人类对创意与情感等的隐性偏好,以避免“众口难调”;

  • 双轨融合:针对混合场景设计协调机制,实现硬指标(对错)与软偏好(优劣)的互补,支持全场景的训练。

训练方法:“监督精调 + 强化学习”的双阶段优化

Seed-Thinking-v1.5 采用“打基础 + 磨能力”的全链路训练:

  • 监督精调(SFT):基于 40 万高质量实例(包括 30 万可验证与 10 万非可验证数据),结合人工与模型协同筛选,构建了长思考链数据集,以确保模型“像人类一样思考”;

  • 强化学习(RL):通过三重数据引擎(可验证/通用/混合数据)、算法创新(如价值预训练、解耦 GAE 等)以及在线数据适配技术,解决了训练不稳定与长链推理断层等问题,并动态调整数据分布,以保持最佳训练状态。

训练框架:支持 20B MoE 的底层架构

为满足 20B MoE(总参数 200B)复杂训练要求,团队对底层架构进行了优化:

  • HybridFlow 编程模型:支持算法的快速探索与分布式并行运行;

  • 流式推理系统(SRS):利用“流式推理”技术解耦模型演进与异步推理,训练速度提升了 3 倍,万亿参数下的稳定性达 95%;

  • 三层并行架构:结合张量/专家/序列并行,动态均衡负载,基于 KARP 算法优化 GPU 算力的利用率。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
本站已运行: 979天18小时45分17秒