Loading...

百度文小言官宣支持多模型调度,升级端到端语音大模型、图片问答能力

GoodNav于3月31日报道,在最新的百度 AI DAY 上,文小言宣布完成了品牌重塑与功能升级。除了品牌视觉形象的更新,文小言还着重于模型开放和功能创新,支持多模型融合调度,并升级了全新语音大模型、图片问答、AI生图生视频等多项功能。

此次文小言升级的主要特色是“多模型融合调度”。通过整合百度自研的文心X1、文心4.5等模型,并引入DeepSeek-R1、可灵等优质第三方模型,文小言实现了多模型的智能协作。用户只需选择“自动模式”,便可一键调用最佳模型组合,或根据需求灵活选用单一模型执行特定任务,显著提升响应速度和处理能力。

此外,此次功能升级使得文小言的全新语音大模型、图片问答、AI生图生视频等能力得到了进一步增强。新语音大模型支持方言对话、复杂知识问答以及随时打断等场景,用户可以进行语音知识问答或趣味角色扮演。

百度语音首席架构师贾磊透露,这一模型是业内首个推出的,以全新互相关注意力(Cross-Attention)为基础的端到端语音语言大模型。在满足一定交互指标的语音场景下,该大模型的调用成本相较行业平均降低了50%-90%,推理响应速度极快,将语音交互的等待时间压缩至约1秒,大幅提升了交互的流畅度。此外,在大模型的支持下,实现了逐字流式、LLM驱动的多情感语音合成,情感表现丰富自然,极大提升了交互的听感体验。

图片问答功能使用户能够通过拍摄或上传图片,以文字或语音提问直接获取深度解析。例如,拍摄一道数学题可以实时生成解题思路和视频解析;上传多款商品图片可以对比参数和价格,帮助用户做出购物决策;拍摄杯子的设计图后,AI可以自动解析风格并生成同款手机壳、支架等相关产品。

值得注意的是,新增的“图个冷知识”功能增添了乐趣,用户可以预设“历史学者”“科技达人”等角色视角,为同一张图片提供多维解读。例如,当用户询问“猫窗探秘,猫为何喜欢窗边?”时,文小言能够从狩猎本能、能量获取、领地意识等多个角度给出独特解读。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...