Loading...

字节跳动豆包文生图技术报告发布:数据处理、预训练、RLHF 全流程公开

GoodNav 3 月 12 日报道,今日,豆包大模型团队正式发布了文生图技术报告,首次对 Seedream 2.0 图像生成模型的技术细节进行了公开,包括数据构建、预训练框架以及后训练 RLHF 的完整流程,并详细介绍了 Seedream 2.0 在中英双语理解、文字渲染、高美感、分辨率及画幅变化等特性上的实现。

字节跳动豆包文生图技术报告发布:数据处理、预训练、RLHF 全流程公开

据悉,豆包大模型团队的文生图模型 Seedream 2.0 已于 2024 年 12 月初在豆包 App 和即梦上线,并已服务超过一亿的 C 端用户。

与 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型相比,该模型更有效地解决了文本渲染能力不足和对中国文化理解不够的问题,支持原生中英双语,并在美感、指令遵循等能力方面得到了整体提升。

为全面客观评估模型,团队构建了 Bench-240 评测基准,严格围绕图文匹配度、结构准确率和美感等维度进行测试。结果表明,Seedream 2.0 在英文提示词下,其生成内容的结构合理性和文本理解准确性均优于主流模型。

图片

在中文综合能力方面,该模型同样表现优异,其生成与渲染文字的可用率达到 78%,完美响应率为 63%,均高于行业内其他模型。

图片

接下来将从数据预处理、预训练和后训练维度介绍模型的技术细节:

 1. 深度融合知识的数据预处理框架 

生成式 AI 技术正在从规模至上的“暴力美学”转向满足特定需求的“精准智能”。与此同步,数据预处理也演变为复杂的系统工程。为了应对百亿级中英多模态数据,Seedream 2.0 团队以“知识融合”为核心构建了预处理框架,并在以下三个方面实现了技术突破。

  • 四维数据架构,实现质量与知识的动态平衡

传统图像生成模型在训练数据筛选时常面临“质量-规模”的两难。团队创新设计了四维拓扑网络,以打破单一模态限制。

该架构包括四个数据层:

1)优质数据层:精选高分辨率、知识密度强的数据(如科学图解、艺术创作),构建质量基础;

2)分布维持层:采用双层级降采样策略,从数据源维度对平台数据等比降维,从语义维度通过 10 万级细粒度聚类维持多样性;

3)知识注入层:建立分类体系,结合跨模态检索,将文化特征注入数据;

4)定向增强层:构建“缺陷发现-数据补充-效果验证”的闭环,优化生成等场景。

这一架构有效平衡了数据质量与知识多样性,为模型训练提供坚实的数据支撑。

图片

  • 智能标注引擎:三级认知进化

传统标注系统存在对图像内容描述不够全面的问题。团队在此基础上,实现了智能标注引擎的三级认知进化,提升了模型的理解和识别能力。通过分层描述体系,结合多维度的 Caption,既能捕捉核心内容,又提供丰富细节与艺术解释。同时建立文化专有名词映射库,实现跨语言对齐,提升多语言表现,最后引入动态质检机制,确保数据质量与可靠性。

  • 工程化重构:百亿数据的流水线并行处理

在工程化方面,团队对传统 ETL 流程进行重构,提升数据处理效率与质量,大幅改善数据管理和利用。

 2. 预训练聚焦双语理解与文字渲染 

在预训练阶段,团队经过用户调研和技术预判,表示多语言语义理解、双语文字渲染和多分辨率适配的突破对于图像生成至关重要。Seedream 2.0 采用了全新的预训练架构,具体创新体现在以下方面。

图片

具体来看,Seedream 2.0 在三个方面实现了关键技术升级。

  • 原生双语对齐方案,打破语言视觉次元壁

针对双语文生图场景,团队提出了基于 LLM 的双语对齐方案,通过大规模文本-图像对数据,微调 Decoder-Only 的 LLM,使文本和视觉特征空间映射对齐,从而增强了模型对文化符号的理解与感知,从而提升生成质量。

  • 让模型既看懂文本,又关注字体字形

团队构建了双模态编码融合系统,LLM 负责理解文本,ByT5 负责刻画文本外观,通过特征对齐与拼接入扩散模型,模型能够学习文本渲染与字形特征。

  • 三重升级 DiT 架构,让图像生成缩放自如

在多分辨率生成方面,团队进行了两重升级,在训练稳定性和位置标识的一致性上都取得了显著进步。

 3. 后训练 RLHF 突破能力瓶颈 

Seedream 2.0 的后训练过程分为四个阶段,其中包括人类反馈对齐(RLHF)利用自研奖励模型提升模型性能。通过调整学习率、去噪时间步长的选择和实施权重指数滑动平均,实现了模型的稳定反馈学习。

图片

团队专注于基于人类反馈对齐的优化系统,增加了 Seedream 2.0 的整体性能。核心工作包括建立多维度偏好数据体系、开发不同奖励模型以提供专项提升,以及通过反复学习驱动模型进化。

图片

字节跳动技术展示页:
https://team.doubao.com/tech/seedream

技术报告:
https://arxiv.org/pdf/2503.07703

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...