字节发布豆包视觉理解、3D 生成等新模型,豆包音乐模型可生成 3 分钟作品
GoodNav 于 12 月 18 日报道,字节跳动在今日的火山引擎 Force 大会上正式推出了豆包视觉理解模型,以便为企业提供多模态大模型的功能。该模型的千 tokens 输入费用仅为 3 厘,用一元钱可以处理 284 张 720P 图片,官方表示这比行业平均价格低了 85%。
同时,豆包 3D 生成模型也在此次活动中首次亮相。结合火山引擎的数字孪生平台 veOmniverse,能够实现智能训练、数据合成和数字资产创建,官方称之为“一款支持 AIGC 创作的物理世界仿真模拟器”。
豆包大模型下的多种产品也进行了更新:
-
豆包通用模型 pro:全面对标 GPT-4o,使用费用仅为后者的 1/8;
-
音乐模型:可创作3 分钟的完整音乐作品;
-
文生图模型 2.1 版本:能够精确生成汉字和一句话的图片,已接入即梦 AI 和豆包 App。
此外,豆包将在明年春季推出具备更长视频生成能力的豆包视频生成模型 1.5 版,同时,豆包端到端实时语音模型也将不久上线,带来多角色演绎和方言转换等新功能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...