英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

AI前沿资讯5个月前发布 GOODNAV.NET

1.3K 0 0

经过五次示范，机器人能够学习到一项复杂的技能。

英伟达实验室提出了一种新方法来解决机器人训练数据不足的问题——DexMimicGen。在五次演示后，DexMimicGen 能够直接生成 1000 个新的演示数据。

而且这些新生成的演示数据具有很强的可用性，使用这些数据训练的机器人在仿真环境中的任务成功率可高达 97%，甚至超过使用真实人类数据的效果。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

值得注意的是，DexMimicGen 的三位共同作者都是李飞飞的“徒弟”，具体来说是德克萨斯大学奥斯汀分校（UT 奥斯汀）助理教授朱玉可（Yuke Zhu）指导的学生。

而且这三位作者均为华人，目前都在英伟达研究院实习。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

5 次演示，生成 1000 条数据

正如所述，DexMimicGen 可以仅通过五次人类演示来生成 1000 个新的演示数据。

在整个实验中，研究人员设置了 9 个场景，涵盖了 3 种机器人形式，共进行了 60 次演示，生成了超过 21000 个演示数据。

在仿真环境中，使用 DexMimicGen 生成的数据训练出的策略执行“整理抽屉”这一任务的成功率可达 76%，而仅使用人工数据的成功率仅为 0.7%。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

与基准方法相比，DexMimicGen 生成的数据显得更为有效。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

当迁移到真实环境时，研究人员测试了易拉罐分拣任务，发现仅使用 40 个生成的数据，成功率就达到了 90%，而不使用生成数据的成功率为零。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

此外，DexMimicGen 还展现了跨任务的泛化能力，使得训练出的策略在不同任务中均能取得良好的表现。

面对初始状态分布的变化，DexMimicGen 也表现出了良好的鲁棒性，在更广泛的初始状态分布 D1 和 D2 的测试中，依然能够保持一定的成功率。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

将仿真方法迁移到现实

DexMimicGen 源于 MimicGen 的改进，而 MimicGen 同样由英伟达与 UT 奥斯汀联合团队开发。

朱玉可和范麟熙曾参与 MimicGen 的研究，该成果发表在 CoRL 2023 上。

MimicGen 的核心理念是将人类示范数据划分为以目标物体为中心的片段，然后通过改变物体的相对位置和姿态，在新的环境中重现人类演示轨迹，从而实现自动化数据生成。

而 DexMimicGen 则在 MimicGen 的基础上，针对双臂机器人灵巧操作任务进行了改进和扩展，具体包括以下几个方面：

引入并行、协调和顺序三类子任务，以适应双臂灵巧操作的需求；
为三种子任务设计了异步执行、同步执行和顺序约束等机制，以实现双臂独立、精确协调以及特定顺序的操作；
构建“现实-模拟-现实”的框架，通过数字孪生的方式，让 DexMimicGen 跨越到实际机器人系统的应用中。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

在工作流程上，DexMimicGen 首先对人类示范数据进行采集和划分。

研究人员通过佩戴 XR 头显远程控制机器人完成目标任务，在此过程中会生成一小批示范数据，针对每个任务，研究人员采集了 5 到 10 个示范样本。

这些示范样本会根据并行、协调和顺序三类子任务进行片段划分——

并行子任务允许两臂独立执行；
协调子任务要求两臂在关键时刻同步动作；
顺序子任务规定某些子任务必须在其他子任务完成后才能执行。

总之，在示范数据划分后，机器人的每个手臂将得到对应的片段集合。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

在数据生成阶段，DexMimicGen 会随机化模拟环境中物体的位置、姿态，并随机选择一段人类示范作为参考。

对于当前的子任务，DexMimicGen 将计算示范片段与当前环境中关键物体位置和姿态之间的变化。

随后，基于这一变换，对参考片段中的机器人动作轨迹进行处理，以使得变换后的轨迹能够与新环境中的物体位置相匹配。

变换完成后，DexMimicGen 将维护每个手臂的动作队列，手指关节的运动则直接回放示范数据中的动作。

在整个过程中，系统不断检查任务是否成功完成，若一次执行成功，则将执行过程记录下来作为有效的示范数据，若失败则丢弃该数据。接着将生成过程不断迭代，直到获得足够的示范数据。

完成数据收集后，研究人员使用 DexMimicGen 生成的示范数据来训练模仿学习策略，策略的输入为 RGB 相机画面，输出为机器人动作。

最后是模拟到现实的迁移，研究人员同样使用 DexMimicGen 在数字孪生环境中生成的海量演示数据来训练模仿学习策略。

之后，研究人员对在数字孪生环境中评估的训练策略进行调优，以提高其泛化能力和鲁棒性，并将其迁移至实际机器人系统中。

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

作者简介

DexMimicGen 由三位共同作者开发，他们都是 UT 奥斯汀的华人学生。

三位作者均是李飞飞的学生、浙大的校友，具体为朱玉可（Yuke Zhu）助理教授的学生，他们分别是：

博士生 Zhenyu Jiang，曾就读于清华，2020 年入读 UT 奥斯汀，预计明年毕业；
硕士生 Yuqi Xie（谢雨齐），本科为上海交通大学和美国密歇根大学的联合培养，预计也将于明年毕业；
博士生 Kevin Lin，曾在 UC 伯克利和斯坦福完成本硕教育，今年加入朱玉可教授的课题组攻读博士。

朱玉可同时也是英伟达的研究科学家，团队的另外两位负责人同样在英伟达工作。

他们分别是 Ajay Mandlekar 和范麟熙（Jim Fan），也是李飞飞的学生，Mandlekar 是 DexMimicGen 项目组中唯一的非华人。

此外，Zhenjia Xu 和 Weikang Wan 两名华人学者对此项目也有贡献，整个团队的分工如下：

中文为机翻，仅供参考

▲ 中文为机翻，仅供参考

项目主页：

https://dexmimicgen.github.io/

论文地址：

https://arxiv.org/abs/2410.24185

参考链接：

[1]https://x.com/SteveTod1998/status/1852365700372832707
[2]https://x.com/DrJimFan/status/1852383627738239324

本文来自微信公众号：量子位（ID：QbitAI），作者：克雷西，原标题《英伟达团队机器训练新方法！仅 5 次演示让机器生成 1000 个新 demo，李飞飞高徒与徒孙联手出品》

# AI前沿资讯 # 机器训练 # 英伟达AI

文章版权归作者所有，未经允许请勿转载。

生成式 AI 已过时：英伟达黄仁勋首提 Agentic AI，后续是机器人 Physical AI

GoodNav.net

525

中国科学家运用人工智能算法发现大量全新 RNA 病毒，大幅拓宽 RNA 病毒库

GoodNav.net

1.6K

戴尔创始人迈克尔・戴尔：并不担心 AI PC 遇冷，产品更新通常会被低估

GoodNav.net

1.1K

OpenAI o1 pro 深评博士医学论文，震惊顶尖免疫学家

GoodNav.net

2.9K

超万名文艺界人士联署警告 AI 公司：对生计造成不公正的重大威胁

GoodNav.net

1.3K

武汉大学首个人形机器人“天问”亮相：身长 1.7m、体重 65kg、36 个自由度

GoodNav.net

1.7K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

5 次演示，生成 1000 条数据

将仿真方法迁移到现实

作者简介

GPT-4o mini 的 6.7/8.3 倍，Claude 3.5 Haiku AI 模型每百万 tokens 输入 1 美元 / 输出 5 美元

我为什么离开 OpenAI？六年元老 Miles Brundage 发离职长文：AGI 将至，我们远没准备好

相关文章

暂无评论

相关文章