AI 玩手机越玩越 6,西湖大学发布会自我进化的智能体 AppAgentX
人工智能正经历前所未有的变革,尤其是大语言模型(LLM)的兴起,使智能系统的发展从信息处理向自主交互转变。
DeepSeek 等 LLM 凭借其卓越的语言理解和推理能力,在文本创作、编程辅助和复杂任务规划等多个领域展现出非凡的表现。
LLM 的潜力超越了文本生成,它们正在打造新型智能体的形态——GUI 代理(GUI Agents)。这种智能体不仅能够理解指令,还能像人类一样直接操控计算机和手机,从而摆脱对预设规则或 API 的依赖,带来更加自然和高效的交互体验,让人工智能真正融入软件生态,成为智能操作系统的一部分。
然而,目前的 LLM 代理尽管具备强大的推理能力,但在任务执行效率方面确实存在明显的瓶颈。
为了解决这一难题,西湖大学 AGI 实验室的张驰团队推出了 AppAgentX——一款具备自我进化能力的 GUI 代理。它能够在持续执行任务的过程中学习和优化自身的行为模式,以实现更高效的操作。
AppAgentX 的核心创新体现在:
-
自动归纳高效操作模式:代理在执行任务时,可以识别重复操作模式,并自动总结成更高级别的一键操作。
-
任务执行更快,减少重复计算:传统的 LLM 代理在执行每个任务时都需重新推理操作流程,而 AppAgentX 则能记住并复用执行策略,从而避免重复推理,使任务执行更流畅高效。
-
完全基于视觉操作,适用于各种软件:传统自动化方法通常需要访问后端 API,而 AppAgentX 仅依靠屏幕视觉信息进行操作,无需后端访问,因此可以在不同软件和设备间通用,真正实现“即插即用”。
AppAgentX:让智能体学会“进化”
以往,计算机的自动化操作多依赖于 RPA(机器人流程自动化),通过预设规则或 API 执行固定任务,这种方式往往需要大量人工配置且缺乏灵活性。
GUI 代理的出现改变了这种状况,被誉为软件领域中的具身智能。
GUI 代理不是依赖后端 API,而是像人类一样,通过屏幕视觉、鼠标和键盘直接操控软件界面。这意味着,智能体能够自主学习如何操作各种应用程序,甚至可以在不同软件间切换并执行复杂的跨应用任务。例如:
-
办公场景:自动整理文档、批量发送邮件
-
娱乐与创作:使用 Photoshop 处理图像、生成视频内容
-
自动化操作:批量录入数据、自动处理订单
-
跨应用任务:从网页爬取信息并填入 Excel、在多个软件之间进行联动操作
因此,GUI 代理被视为智能助手、数字员工、自动化测试等领域的下一代解决方案。然而,目前仍面临着现有智能体虽然聪明但不够高效的问题。
现有的 LLM 代理通常采用逐步推理(Step-by-step Reasoning)的方式,即在每次执行操作前模型都需推理下一步动作。例如,在进行网页搜索时,可能会进行如下决策:
-
识别需要搜索的信息;
-
点击搜索框;
-
输入关键词;
-
点击搜索按钮。
虽然这种方式赋予智能体极强的泛化能力,使其能够适应新任务场景,但也带来了执行效率低下、重复计算问题。AppAgentX 的核心思路是让智能体学会“进化”。
以下是知识体在播放音乐时执行操作的例子示意图,当找到了“一键”操作后,不再需要投入大量时间思考下一步动作,从而迅速完成任务。
可以发现,智能体进化出了一个高级操作“搜索”,从而取代了一系列低效的基础操作。这种进化有效地避免了耗时的逐步推理,大幅提升了代理的效率。
方法介绍
任务轨迹的分解
在执行任务时,AppAgentX 将整个过程分解为多个重叠的三元组(即由三个部分组成的组合)。这些三元组包含页面内容和用户界面(UI)元素的功能描述。具体而言,智能体会:
-
生成功能描述:利用大语言模型(LLM)为每个页面和界面元素生成详细的功能描述,帮助智能体理解每个部分的作用。
-
合并重复描述:若某些页面描述重复,智能体会将这些描述合并,以减少冗余信息。
-
记录交互历史:整个交互过程会被记录为一个节点链,形成完整的操作历史,便于后续调用。
进化机制与执行过程
在任务执行过程中,AppAgentX 引入了一种进化机制,使其能够更高效地执行操作。这个机制的核心在于生成“捷径节点”,允许智能体在执行一系列操作时跳过逐步推理过程。具体步骤如下:
-
生成捷径节点:当智能体识别到某些操作的执行顺序是固定的时,它会创建捷径节点。这些节点将多个底层操作整合为一个更高级的动作。
-
高效执行:通过调用捷径节点,智能体可以快速执行一系列操作,而无需逐步推理每一步,大幅提高任务执行效率。
实验结果显示,AppAgentX 在单步执行效率和整体 API token 消耗方面,在多项 GUI 交互任务中均表现出显著的成本和效率优势。
总体而言,AppAgentX 作为创新的移动终端交互技术,透过构建链式知识存储架构和动态匹配执行机制,在保持大型语言模型代理灵活性的同时显著提升执行效率,实现无需后端访问的图形界面智能操作系统。
该技术成功打破了传统智能体在响应速度与认知能力之间的平衡难题,为移动端 AI 应用铺平了新的技术道路。这项研究不仅标志着智能体技术在效率与智能动态平衡方面的重大突破,更为人机交互领域提供了可扩展的技术范式。
-
Arxiv 地址:https://arxiv.org/abs/2503.02268
本文来自微信公众号:量子位(ID:QbitAI),作者:西湖大学,原标题《AI 玩手机越玩越 6!西湖大学发布新智能体:会自我进化的 AppAgentX》