豆包视觉理解模型惊艳亮相:首次评测就排名全球第二
12月18日至19日,火山引擎FORCE原动力大会・冬季正式在上海举办。此次大会最令人瞩目的焦点,无疑是豆包大模型家族的全面升级以及新发布的豆包视觉理解模型。
豆包视觉理解模型在内容识别、理解和推理能力方面处于业内领先地位,具备更为细致的视觉描述能力。这一模型犹如给大型模型装上了一双“眼睛”,使它能够像人类一样感知和理解现实世界,从而拓展了人类与大型模型的互动方式及应用场景。
在火山引擎FORCE大会后,智源研究院发布了最新的大模型评测结果。在视觉语言模型的评测中,豆包视觉理解模型荣获全球第二,仅次于GPT-4o。特别是在中文的通用知识和文字识别方面,豆包表现优异,明显优于国外模型。
正如生物进化中眼睛的出现是物种爆发的关键,给AI模型添加视觉理解功能将为人工智能生态的多样化发展打下基础。
豆包视觉理解大模型,行业领先的能力
在分析视觉理解对大模型的重要性后,我们再来看此次发布的豆包视觉理解模型,其在多个方面的先进性为视觉理解模型的发展探索了新的高度。
例如,豆包视觉理解大模型具备卓越的内容识别能力,不仅能够识别图像中的物体、形状和类别等元素,还能理解物体之间的关系、空间布局以及场景的整体意义。
在发布会的演示中,豆包视觉理解模型能够根据影子的形状辨别出是哪种动物的影子,还能通过图像中光线穿透薄雾的美丽景象判断这是丁达尔效应,并解释其原理。此外,它还能识别我们生活中不太熟悉的物品,帮助用户了解它们。
此外,豆包视觉理解模型还具备行业领先的OCR能力,能够精确提取和理解图片中的文本信息,包括纯文本图像、日常图像的文字抽取以及表格内容的提取等。
更重要的是,它能够基于指令进行视觉内容的识别,并对中国传统文化信息有更深刻的理解。
对视觉内容的识别只是起点,接下来,豆包视觉理解模型还具备强大的理解和推理能力。它能轻松处理复杂的图像推理任务,在表格图像、数学问题、代码图像等场景中展示出更强的性能,并支持参考问答、总结摘要以及数学、逻辑和代码推理。
例如,它支持多种类型的图表内容提取,能够快速精准地提取图表信息;同时能够准确理解提示,实现“随心所欲”的格式化输出,轻松获取关键信息,提高图表分析效率。
此外,豆包视觉理解模型还具备更细致的视觉描述能力,能够基于图像信息深入描绘图像呈现的内容,并能够根据图像内容进行产品介绍、宣传文章、视频脚本、故事及诗歌等多种形式的创作。
例如,一家公司生产了一款文创产品并准备送给客户,可以利用豆包视觉理解模型基于文创产品的图像创作出温暖的祝福语。
它还可以根据您的指令描述图像的细节。例如,在一张展示女生成夜晚放孔明灯的图像中,您可以询问豆包视觉理解模型“画圈的地方放的是什么灯?古代什么时间会放呢?”豆包就会提供准确的回答和科普知识。
另一个例子是,它能够对多张美食图片进行多维度的信息提取,快速精准地分析菜品特点,并细致洞察餐厅的环境、服务质量等要素,从而帮助用户撰写关于美食和餐厅的点评内容。
它还可以帮助我们撰写社交媒体文案,基于多张图片进行灵感提取,捕捉用户心中想要表达的核心情感和元素,理解用户对文案的风格、语气和字数等要求,从而生成各种风格的朋友圈文案。
豆包大模型家族全面升级,深入赋能各行各业
可以看出,目前豆包视觉理解模型展现出的技术成熟度、创新性和实际使用体验已达到令人惊叹的水平,而这背后得益于字节跳动在基础模型方面的全方位创新和深度投入。
字节跳动自主研发的豆包大模型于今年5月在春季FORCE原动力大会上正式亮相,此前已经历了一年的迭代与市场验证,并通过火山引擎向外提供服务。此后,豆包大模型快速迭代,目前已形成包含通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等在内的行业综合性模型家族,再加上这次的视觉理解模型,每款模型都专注于特定的业务类型和应用场景,为用户提供了丰富的选择。
在此次冬季FORCE原动力大会上,豆包大模型家族也迎来了全面升级。豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级为3分钟的完整作品;而文生图模型2.1更是在行业内首次实现精准生成汉字和一句话P图的功能,该模型已接入即梦AI和豆包App。
此外,豆包3D生成模型也在大会上首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合,可以高效完成智能训练、数据合成和数字资产制作,成为支持AIGC创作的物理世界仿真模拟器。
字节跳动还在大会上宣布,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,解锁多角色演绎、方言转换等新功能。
虽然豆包大模型发布时间较晚,但一直在快速迭代进化,现已成为国内最全面、技术最尖端的大模型之一。
火山引擎总裁谭待在会上表述如此。
对于大模型产品来说,除了需要企业方面的高强度技术与资源投入,在市场方面也需要相应的使用量。
正如谭待所言:“唯有巨大的使用量,才能锻造出优秀的模型。”最终,只有依靠大规模的使用,才能真正打通商业闭环,并为大模型的迭代升级提供持续的数据支持。
根据本次冬季FORCE原动力大会公布的数据,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。
这表明豆包大模型的能力正在被C端市场充分验证,大模型的应用正在各行各业加速落地。
在大模型应用场景生态构建方面,豆包大模型走在行业前沿,与众多行业客户共同创造,让豆包大模型赋能多个领域,包括智能终端、汽车、金融、消费和互联网等。
根据最新消息,豆包大模型已经与80%的主流汽车品牌建立合作,并接入多家手机、PC等智能终端,覆盖约3亿台终端设备,来自智能终端的豆包大模型调用量在短短六个月内增长了100倍。
在与企业生产力相关的场景中,豆包大模型也获得了众多企业客户的青睐:在过去三个月中,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长了16倍,硬件终端场景增长了13倍,AI工具场景则增长了9倍,学习教育等场景同样有显著增长。
具体而言,小米的小爱语音助手与豆包大模型的合作提升了语音能力、知识储备及性能效率,华硕的A豆系列笔记本则与豆包大模型合作,推出了旨在服务用户的豆叮AI助手应用,招商银行则通过扣子与豆包大模型搭建了推荐餐饮优惠门店的“掌上生活”bot与能汇总市场动态的“财富看点”bot……
可以预见,随着豆包视觉理解模型的推出,未来豆包大模型将会开辟更广阔的应用领域。
最后值得一提的是,本次大会上,火山引擎还升级了火山方舟、扣子和HiAgent三款平台产品,以帮助企业构建自己的AI能力中心,高效开发AI应用。
其中,火山方舟推出了大模型记忆方案,并提供了prefix cache和session cache API,以降低延迟和成本,同时还带来了全域AI搜索,具备场景化搜索推荐一体化、企业私域信息整合等功能。
结语
根据麦肯锡的报告,大模型的价值创造潜力巨大,预计到2030年将推动全球经济增量达49万亿人民币。目前,从技术创新到商业落地,大模型已经为我们的日常工作与生活以及各行业的AI转型提供了动力。
正如谭待所言:
今年是大模型快速发展的年份。当您看到一列高速列车时,最重要的事情就是确保自己能够登上这趟列车。火山引擎希望通过AI云原生和豆包大模型家族,帮助企业实现AI创新,驶向更光明的未来。