亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体
GoodNav 4月1日报道,亚马逊在当地时间周一正式推出其通用人工智能智能体(AI agent)——Nova Act。该智能体能够操控网络浏览器,并自主完成简单的在线任务。同时,亚马逊发布了与之配套的Nova Act软件开发工具包(SDK),旨在帮助开发者利用Nova Act构建智能体应用原型。
据悉,Nova Act由亚马逊在旧金山新成立的AGI(通用人工智能)实验室研发,该项技术未来将为备受期待的生成式AI增强版语音助手Alexa+提供关键功能支持。亚马逊表示,今天发布的版本为“研究预览版”,功能仍需进一步完善。
开发者可以通过新成立的专属网站 nova.amazon.com 获取Nova Act工具包,而该网站也作为亚马逊展示其旗下各种Nova基础模型的平台。
Nova Act的发布标志着亚马逊正式参与到AI智能体技术的竞争中,旨在通过自主研发的通用AI智能体技术,与OpenAI的Operator和Anthropic的Computer Use等产品展开竞赛。目前,许多科技公司普遍认为,能够替用户浏览网页和执行任务的AI智能体将显著提升现有AI聊天机器人的实用性。虽然亚马逊并非首个开发此类技术的公司,但凭借其庞大的Alexa用户基础,Nova Act未来有望拥有广泛的应用潜力。
亚马逊表示,开发者使用Nova Act SDK,将能为用户自动化执行一些基本的网络操作,例如通过餐饮品牌Sweetgreen订购沙拉或在线预订餐厅晚餐。该工具包提供了一系列工具,使AI智能体能够浏览网页、填写表单、在日历中选择日期等。
在性能方面,亚马逊声称,在公司内部的多个测试中,Nova Act的表现超越了来自OpenAI和Anthropic的同类智能体。例如,在衡量AI智能体与屏幕文本交互能力的ScreenSpot Web Text测试中,Nova Act得分高达94%,超过了OpenAI的CUA(88%)以及Anthropic的Claude 3.7 Sonnet(90%)。不过,需要注意的是,亚马逊并未公布Nova Act在如WebVoyager等行业常用的智能体评估基准上的测试结果。
Nova Act是亚马逊AGI实验室对外发布的第一个公开产品。该实验室由前OpenAI研究员David Luan和Pieter Abbeel共同领导。在被亚马逊聘用以主导其AI智能体研发工作之前,这两位专家分别创立了AI初创公司Adept和Covariant。
对于一个以AGI为目标的实验室为何会开发订购沙拉的AI智能体,Luan在接受TechCrunch采访时解释道,智能体是构建超智能AI系统的重要一步。他将AGI定义为“一个能帮助用户在计算机上完成任何人类可以做的事情的AI系统”。Luan还表示,其团队设计的Nova Act SDK旨在可靠地自动化执行简短、简单的任务,并为开发者提供精确定义何时需要人类介入智能体工作流程的工具,以帮助开发者创建更可靠的智能体应用,即使这些应用不一定完全自主运行。
目前,来自OpenAI、谷歌和Anthropic等公司的早期AI智能体普遍在跨不同领域应用时面临可靠性不足的重大挑战。据TechCrunch等媒体的测试,这些系统往往运行缓慢,难以长时间独立工作,并且容易出现人类通常不会犯的错误。亚马逊是否找到了解决这些问题的有效方法,抑或其Nova Act智能体也将面临同样的缺陷,市场将拭目以待。