Loading...

字节发布豆包视觉理解、3D 生成等新模型,豆包音乐模型可生成 3 分钟作品

GoodNav 于 12 月 18 日报道,字节跳动在今日的火山引擎 Force 大会上正式推出了豆包视觉理解模型,以便为企业提供多模态大模型的功能。该模型的千 tokens 输入费用仅为 3 厘,用一元钱可以处理 284 张 720P 图片,官方表示这比行业平均价格低了 85%。

同时,豆包 3D 生成模型也在此次活动中首次亮相。结合火山引擎的数字孪生平台 veOmniverse,能够实现智能训练、数据合成和数字资产创建,官方称之为“一款支持 AIGC 创作的物理世界仿真模拟器”。

豆包大模型下的多种产品也进行了更新:

  • 豆包通用模型 pro:全面对标 GPT-4o,使用费用仅为后者的 1/8;

  • 音乐模型:可创作3 分钟的完整音乐作品

  • 文生图模型 2.1 版本:能够精确生成汉字和一句话的图片,已接入即梦 AI 和豆包 App。

此外,豆包将在明年春季推出具备更长视频生成能力的豆包视频生成模型 1.5 版,同时,豆包端到端实时语音模型也将不久上线,带来多角色演绎和方言转换等新功能。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...