百度文小言官宣支持多模型调度，升级端到端语音大模型、图片问答能力

530 0 0

GoodNav于3月31日报道，在最新的百度 AI DAY 上，文小言宣布完成了品牌重塑与功能升级。除了品牌视觉形象的更新，文小言还着重于模型开放和功能创新，支持多模型融合调度，并升级了全新语音大模型、图片问答、AI生图生视频等多项功能。

此次文小言升级的主要特色是“多模型融合调度”。通过整合百度自研的文心X1、文心4.5等模型，并引入DeepSeek-R1、可灵等优质第三方模型，文小言实现了多模型的智能协作。用户只需选择“自动模式”，便可一键调用最佳模型组合，或根据需求灵活选用单一模型执行特定任务，显著提升响应速度和处理能力。

此外，此次功能升级使得文小言的全新语音大模型、图片问答、AI生图生视频等能力得到了进一步增强。新语音大模型支持方言对话、复杂知识问答以及随时打断等场景，用户可以进行语音知识问答或趣味角色扮演。

百度语音首席架构师贾磊透露，这一模型是业内首个推出的，以全新互相关注意力（Cross-Attention）为基础的端到端语音语言大模型。在满足一定交互指标的语音场景下，该大模型的调用成本相较行业平均降低了50%-90%，推理响应速度极快，将语音交互的等待时间压缩至约1秒，大幅提升了交互的流畅度。此外，在大模型的支持下，实现了逐字流式、LLM驱动的多情感语音合成，情感表现丰富自然，极大提升了交互的听感体验。

图片问答功能使用户能够通过拍摄或上传图片，以文字或语音提问直接获取深度解析。例如，拍摄一道数学题可以实时生成解题思路和视频解析；上传多款商品图片可以对比参数和价格，帮助用户做出购物决策；拍摄杯子的设计图后，AI可以自动解析风格并生成同款手机壳、支架等相关产品。

值得注意的是，新增的“图个冷知识”功能增添了乐趣，用户可以预设“历史学者”“科技达人”等角色视角，为同一张图片提供多维解读。例如，当用户询问“猫窗探秘，猫为何喜欢窗边？”时，文小言能够从狩猎本能、能量获取、领地意识等多个角度给出独特解读。