Loading...

智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕

AI前沿资讯16小时前发布 GOODNAV.NET
105 0 0

GoodNav 于 12 月 27 日报道,智谱技术团队的公众号在昨日(12 月 26 日)发布了一篇博客,宣布开源 GLM-PC 的基础模型 CogAgent-9B-20241220。该模型基于 GLM-4V-9B 进行训练,专门针对智能体(Agent)任务。

值得注意的是,该模型仅需屏幕截图作为输入(无需 HTML 或其他文本表示),即可根据用户指定的各种任务,以及历史操作,预测下一步的 GUI 操作。

由于屏幕截图和 GUI 操作的广泛适用性,CogAgent 可在各种基于 GUI 的交互场景中应用,例如个人电脑、手机和车机设备等。

智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕

与 2023 年 12 月开源的第一版 CogAgent 模型相比,CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完整性、任务适应性和泛化能力等方面都有显著提升,并支持中英文双语的屏幕截图与语言交互。

CogAgent 的输入仅有三部分:用户的自然语言指令、已执行的历史动作记录以及 GUI 截图,无需任何形式的文本布局信息或附加元素标签(set of marks)信息。

智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕

其输出内容涵盖以下四个方面:

  • 思考过程(Status & Plan):CogAgent 显示其理解 GUI 截图及决定下一步操作的思考过程,包括状态(Status)和计划(Plan)两个部分,输出内容可通过参数进行控制。

  • 下一步动作的自然语言描述(Action):采取自然语言形式的动作描述,将被记录到历史操作中,以便模型理解已执行的步骤。

  • 下一步动作的结构化描述(Grounded Operation):CogAgent 以类似函数调用的方式,结构化描述下一步操作及其参数,方便端侧应用解析并执行其输出。其动作空间涵盖 GUI 操作(基础动作,例如左键单击、文本输入等)以及拟人化行为(高级动作,如启动应用、调用语言模型等)。

  • 下一步动作的敏感性判断:动作分为“一般操作”和“敏感操作”两类,后者指可能导致无法挽回后果的动作,例如在“发送邮件”任务中点击“发送”按钮。

CogAgent-9B-20241220 已在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试,并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了对比。

智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕

测试结果显示,CogAgent 在多个数据集上表现优越,证明其在 GUI Agent 领域的强大性能。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...