智源推出全能视觉生成模型 OmniGen：支持文生图、图像编辑等

1.2K 0 0

GoodNav 于10月29日报道，北京智源人工智能研究院（BAAI）发布了新的扩散模型架构OmniGen，这是一种多模态模型，旨在实现图像生成的统一。

▲ 文本生成图像，编辑图像的某些元素，根据生成图像的人体姿态重绘图像，从其他图像中提取所需对象与新图像融合

官方指出，OmniGen 拥有以下特点：

统一性：OmniGen 自然支持多种图像生成任务，如文生图、图像编辑、主题驱动生成和视觉条件生成等。同时，OmniGen 还能够处理传统的计算机视觉任务，将其转化为图像生成的任务。
简单性：OmniGen 的架构经过高度简化。此外，与现有模型相比，它更具用户友好性，能够通过简单指令完成复杂任务，无需冗长的处理步骤和额外模块（如 ControlNet 或 IP-Adapter），从而显著简化工作流程。
知识迁移：得益于统一格式的学习，OmniGen 能够有效地在不同任务间迁移知识，适应之前未见过的任务和领域，并展示新颖的功能。我们还研究了模型的推理能力及其在图像生成领域潜在的思维链机制应用。

智源推出全能视觉生成模型 OmniGen：支持文生图、图像编辑等

▲ 手势表达生成

相关链接如下：