Loading...

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

AI 解放了碳基生物的双手,甚至可以让你的手机自主运行

你没有听错 —— 这就是移动任务的自动化。

在 AI 迅猛发展的背景下,移动任务自动化逐渐演变为一个备受关注的新兴研究领域。

移动任务自动化通过 AI 精确理解并解析人类意图,进而在移动设备(如手机、平板电脑和车载设备)上高效地完成多样化的任务,为那些因为认知局限、身体障碍或特定环境限制的用户提供前所未有的便利与支持。

  • 协助视障者进行导航、阅读和线上购物

  • 帮助老年人更好地使用手机,弥补数字鸿沟

  • 助力司机在行驶时发送短信或调整车内环境

  • 为用户完成日常生活中的重复性任务

  • ……

妈妈再也不用担心重复设置多个日历事项了。

近日,来自西安交通大学智能网络与网络安全教育部重点实验室 (MOE KLINNS Lab) 的蔡忠闽教授和宋云鹏副教授的团队(主要研究方向包括智能人机交互、混合增强智能和电力系统智能化等),基于其最新 AI 研究成果,创新性地提出了一种视觉基础的移动设备任务自动化方案 VisionTasker

该研究不仅为普通用户提供了更为智能的移动设备使用体验,也彰显了对特殊需求群体的关怀和赋能。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

视觉基础的移动设备任务自动化方案

团队提出了VisionTasker,这是一个结合基于视觉的用户界面理解和大语言模型(LLM)任务规划的两阶段框架,旨在逐步实现移动任务自动化。

该方案有效减少了对用户界面视图层级结构的依赖,提升了对不同应用界面的适应性。

值得一提的是,使用 VisionTasker 无需为大模型进行大规模数据训练。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

VisionTasker 以用户通过自然语言表达的任务需求为起点,Agent 开始理解并执行指令。

具体实现步骤如下:

1、用户界面理解

VisionTasker 通过视觉手段进行用户界面理解,从而解析和解释用户界面内容。

首先,Agent 识别并分析用户界面中的元素和布局,例如按钮、文本框和文字标签等。

然后,将这些识别到的视觉信息转化为自然语言描述,用以解释界面信息。

2、任务规划与执行

随后,Agent 利用大型语言模型进行导航,根据用户指令和界面描述进行任务规划。

将用户的任务分解为可执行步骤,如点击或滑动操作,以便自动完成任务。

3、过程持续迭代

每完成一步,Agent 根据最新的界面信息和历史操作更新其对话和任务规划,确保每一步的决策基于当前上下文。

这是一个不断迭代的过程,持续进行,直到判断任务完成或到达预设限制。

用户不仅能在交互中解放双手,还可以通过可见提示监控任务进度,随时中断任务,保持对整个流程的控制。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

首先是识别界面中的小部件和文本,检测按钮、文本框等元素及其位置。

对于没有文本标签的按钮,使用 CLIP 模型通过视觉设计推测其可能的功能。

之后,系统根据用户界面布局的视觉信息进行划分,将界面分成多个不同功能的区块,并为每个区块生成自然语言描述。

这个过程还包括文本与小部件的匹配,确保能正确理解每个元素的功能。

最终,所有这些信息被转化为自然语言描述,为大型语言模型提供正晰、语义丰富的界面数据,使其能够有效进行任务规划和自动化操作。

实验评估

在实验评估部分,该项目提供了对三种用户界面理解方法的比较分析,具体为:

  • GPT-4V

  • VH(视图层级)

  • VisionTasker 方法

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

三种用户界面理解方法的比较分析

比较结果显示,VisionTasker 在多个维度上明显优于其他方法。

此外,在跨语言应用的处理上,它也展现了良好的泛化能力。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

 实验 1 中的常见用户界面布局

显示出 VisionTasker 在用户界面理解与解释方面的显著优势,尤其是在面对多样化和复杂用户界面时更为突出。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

跨四个数据集的单步预测准确率

研究还进行了单步预测实验,根据当前的任务状态和用户界面,预测接下来应该执行的动作或操作。

结果表明,VisionTasker 在所有数据集上的平均准确率达到了 67%,比基线方法提高了超过 15%。

真实世界任务:VisionTasker 与人类比较

在实验中,研究团队设计了 147 个真实的多步骤任务来评估 VisionTasker 的表现,涵盖了国内常用的 42 个应用程序。

同时,团队设置了人类对比测试,由 12 名评估者手动执行这些任务,随后与 VisionTasker 的结果进行比较。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

结果显示,VisionTasker 在大部分任务中达到了与人类相当的完成率,并且在某些不熟悉的任务中表现超出人类。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

实际任务自动化实验的结果,“Ours-qwen”表示使用开源 Qwen 实现 VisionTasker 框架,而“Ours”则表示使用文心一言作为 LLM

研究团队还评估了 VisionTasker 在不同条件下的表现,包括使用不同的大语言模型(LLM)和编程演示(PBD)机制。

VisionTasker 在大多数直观任务中达到了与人类相当的完成率,在熟悉任务中略低于人类,但在不熟悉任务中表现优于人类。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

VisionTasker 逐步完成任务的展示

结论

作为一个基于视觉和大型模型的移动任务自动化框架,VisionTasker 解决了现阶段移动任务自动化对视图层级结构的过度依赖。

通过一系列对比实验,证明其在用户界面表现上优于传统的编程演示和视图层级结构方法。

它在四个不同的数据集上展现了卓越的 UI 表示能力,具有更强的应用广度;同时在 Android 手机上执行 147 个真实世界任务时,尤其是在复杂任务的处理上,显示了超越人类的能力。

此外,通过集成编程演示(PBD)机制,VisionTasker 在任务自动化方面的性能有了显著提升。

目前,该研究成果已正式发表在将于 2024 年 10 月 13-16 日于美国匹兹堡举行的人机交互顶级会议 UIST(The ACM Symposium on User Interface Software and Technology)上。

UIST 是人机交互领域专注于人机界面软件与技术创新的 CCF A 类顶级学术会议。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

  • 原文链接:https://dl.acm.org/ doi / 10.1145/3654777.3676386

  • 项目链接:https://github.com/ AkimotoAyako / VisionTasker

本文来自微信公众号:量子位(ID:QbitAI),作者:关注前沿科技

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...