AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

1.3K 0 0

AI 解放了碳基生物的双手，甚至可以让你的手机自主运行！

你没有听错 —— 这就是移动任务的自动化。

在 AI 迅猛发展的背景下，移动任务自动化逐渐演变为一个备受关注的新兴研究领域。

移动任务自动化通过 AI 精确理解并解析人类意图，进而在移动设备（如手机、平板电脑和车载设备）上高效地完成多样化的任务，为那些因为认知局限、身体障碍或特定环境限制的用户提供前所未有的便利与支持。

协助视障者进行导航、阅读和线上购物
帮助老年人更好地使用手机，弥补数字鸿沟
助力司机在行驶时发送短信或调整车内环境
为用户完成日常生活中的重复性任务
……

妈妈再也不用担心重复设置多个日历事项了。

近日，来自西安交通大学智能网络与网络安全教育部重点实验室 (MOE KLINNS Lab) 的蔡忠闽教授和宋云鹏副教授的团队（主要研究方向包括智能人机交互、混合增强智能和电力系统智能化等），基于其最新 AI 研究成果，创新性地提出了一种视觉基础的移动设备任务自动化方案 VisionTasker。

该研究不仅为普通用户提供了更为智能的移动设备使用体验，也彰显了对特殊需求群体的关怀和赋能。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

视觉基础的移动设备任务自动化方案

团队提出了VisionTasker，这是一个结合基于视觉的用户界面理解和大语言模型（LLM）任务规划的两阶段框架，旨在逐步实现移动任务自动化。

该方案有效减少了对用户界面视图层级结构的依赖，提升了对不同应用界面的适应性。

值得一提的是，使用 VisionTasker 无需为大模型进行大规模数据训练。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

VisionTasker 以用户通过自然语言表达的任务需求为起点，Agent 开始理解并执行指令。

具体实现步骤如下：

1、用户界面理解

VisionTasker 通过视觉手段进行用户界面理解，从而解析和解释用户界面内容。

首先，Agent 识别并分析用户界面中的元素和布局，例如按钮、文本框和文字标签等。

然后，将这些识别到的视觉信息转化为自然语言描述，用以解释界面信息。

2、任务规划与执行

随后，Agent 利用大型语言模型进行导航，根据用户指令和界面描述进行任务规划。

将用户的任务分解为可执行步骤，如点击或滑动操作，以便自动完成任务。

3、过程持续迭代

每完成一步，Agent 根据最新的界面信息和历史操作更新其对话和任务规划，确保每一步的决策基于当前上下文。

这是一个不断迭代的过程，持续进行，直到判断任务完成或到达预设限制。

用户不仅能在交互中解放双手，还可以通过可见提示监控任务进度，随时中断任务，保持对整个流程的控制。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

首先是识别界面中的小部件和文本，检测按钮、文本框等元素及其位置。

对于没有文本标签的按钮，使用 CLIP 模型通过视觉设计推测其可能的功能。

之后，系统根据用户界面布局的视觉信息进行划分，将界面分成多个不同功能的区块，并为每个区块生成自然语言描述。

这个过程还包括文本与小部件的匹配，确保能正确理解每个元素的功能。

最终，所有这些信息被转化为自然语言描述，为大型语言模型提供正晰、语义丰富的界面数据，使其能够有效进行任务规划和自动化操作。

实验评估

在实验评估部分，该项目提供了对三种用户界面理解方法的比较分析，具体为：

GPT-4V
VH（视图层级）
VisionTasker 方法

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 三种用户界面理解方法的比较分析

比较结果显示，VisionTasker 在多个维度上明显优于其他方法。

此外，在跨语言应用的处理上，它也展现了良好的泛化能力。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 实验 1 中的常见用户界面布局

显示出 VisionTasker 在用户界面理解与解释方面的显著优势，尤其是在面对多样化和复杂用户界面时更为突出。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 跨四个数据集的单步预测准确率

研究还进行了单步预测实验，根据当前的任务状态和用户界面，预测接下来应该执行的动作或操作。

结果表明，VisionTasker 在所有数据集上的平均准确率达到了 67%，比基线方法提高了超过 15%。

真实世界任务：VisionTasker 与人类比较

在实验中，研究团队设计了 147 个真实的多步骤任务来评估 VisionTasker 的表现，涵盖了国内常用的 42 个应用程序。

同时，团队设置了人类对比测试，由 12 名评估者手动执行这些任务，随后与 VisionTasker 的结果进行比较。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

结果显示，VisionTasker 在大部分任务中达到了与人类相当的完成率，并且在某些不熟悉的任务中表现超出人类。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ 实际任务自动化实验的结果，“Ours-qwen”表示使用开源 Qwen 实现 VisionTasker 框架，而“Ours”则表示使用文心一言作为 LLM

研究团队还评估了 VisionTasker 在不同条件下的表现，包括使用不同的大语言模型（LLM）和编程演示（PBD）机制。

VisionTasker 在大多数直观任务中达到了与人类相当的完成率，在熟悉任务中略低于人类，但在不熟悉任务中表现优于人类。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

△ VisionTasker 逐步完成任务的展示

结论

作为一个基于视觉和大型模型的移动任务自动化框架，VisionTasker 解决了现阶段移动任务自动化对视图层级结构的过度依赖。

通过一系列对比实验，证明其在用户界面表现上优于传统的编程演示和视图层级结构方法。

它在四个不同的数据集上展现了卓越的 UI 表示能力，具有更强的应用广度；同时在 Android 手机上执行 147 个真实世界任务时，尤其是在复杂任务的处理上，显示了超越人类的能力。

此外，通过集成编程演示（PBD）机制，VisionTasker 在任务自动化方面的性能有了显著提升。

目前，该研究成果已正式发表在将于 2024 年 10 月 13-16 日于美国匹兹堡举行的人机交互顶级会议 UIST（The ACM Symposium on User Interface Software and Technology）上。

UIST 是人机交互领域专注于人机界面软件与技术创新的 CCF A 类顶级学术会议。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

原文链接：https://dl.acm.org/ doi / 10.1145/3654777.3676386
项目链接：https://github.com/ AkimotoAyako / VisionTasker

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技

# AI前沿资讯 # 人工智能 # 自动化设备

文章版权归作者所有，未经允许请勿转载。

AI 购物应用 Nate 创始人被控欺诈：人工冒充 AI 骗取 5000 万美元投资

GoodNav.net

440

科大讯飞董事长刘庆峰 2025 年两会建议：设立 AI 失业保险

GoodNav.net

890

迪士尼成立新 AI 部门，探索人工智能、混合现实等新型技术的潜力

GoodNav.net

1.3K

AI 赋能好莱坞：《此心安处》通过实时 AI 换脸技术让演员“逆生长”

GoodNav.net

1.4K

初创公司 Odyssey 推出 AI 工具 Explorer：文本、图像可秒变逼真 3D 场景

GoodNav.net

1.3K

“迄今最智能”AI 模型登场，谷歌 Gemini 2.5 Pro 免费向公众推出

GoodNav.net

565

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

视觉基础的移动设备任务自动化方案

实验评估

结论

谷歌：Gemini API 用量 6 个月飙升 14 倍，明年将升级 AI 助手

Python 成 GitHub 最受欢迎编程语言，AI 成主要推动力

相关文章

暂无评论

相关文章