灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作
GoodNav 报道,灵初智能于 12 月 30 日推出了首个基于强化学习(RL)技术的端到端具身模型 Psi R0。
据了解,该模型具备双灵巧手协同执行复杂任务的能力,通过将多个技能进行联动训练,开发出能够进行推理的智能体,完成并闭环长程灵巧操作的任务。此外,Psi R0 还支持跨对象、跨场景的广泛应用。
以电商环境为例,商品打包工作是一个典型的长程任务,涉及对上万件商品的抓取、扫码、放置及塑料袋打结等多重操作。Psi R0 能够利用双灵巧手流畅地执行这一系列动作(官方指出此系列动作可以在客户现场代替一个完整的工作站),成为首个成功完成长程灵巧操作任务的基于强化学习的具身机器人。
官方表示,基于 RL 的 Psi R0 模型通过海量仿真数据训练,成功培养出双手操作的智能体,并通过双向训练框架将多技能串联起来,在行业内首次完成开放环境中的长程任务,展现出较强的泛化能力与高鲁棒性(robustness)。
该技能训练框架通过物体时空轨迹提取关键信息,构建通用目标函数,有效解决了奖励函数设计困难的问题。在后续训练阶段,通过少量高质量的真实数据对齐,进一步提升长程任务的成功率。
此外,双向训练框架中的转移可行性函数发挥了关键作用,能够微调技能以提高串联成功率与泛化能力,同时赋予模型自主切换技能的能力,使其在遭遇操作失败时能够快速调整策略,以保证高成功率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...