当前,人形机器人正以惊人的速度跨越技术边界,展现出愈发接近人类的操作精度与互动灵活性,这一里程碑式的进步,离不开对复杂环境中序列性接触任务执行的深度探索。
在现实世界的复杂机器人交互与操作中,人形机器人能否流畅执行涉及复杂接触的任务,显得尤为关键。传统方法往往依赖于基于模型的运动规划或轨迹优化技术,但这些手段不仅耗时冗长,而且高度依赖简化的低阶动力学模型,这在一定程度上削弱了运动表现的细腻度与实际应用的广泛性。
近年来,强化学习(Reinforcement Learning, 简称RL)凭借其**的模型不匹配及不确定性处理能力,在足式机器人的实时敏捷运动控制领域崭露头角。然而,现有RL研究大多聚焦于基础运动任务,如行走等,而对于那些需要***实现特定接触序列的复杂任务,则显得力不从心。尽管已有少数研究尝试将RL应用于受限落脚点的运动控制或特定情境下的任务感知接触序列,但这些方案往往针对特定任务或转换进行了大量定制化调整,缺乏足够的通用性。此外,仿真到现实世界的迁移难题,以及不同策略间公式和奖励函数的不一致性,也严重制约了RL在长周期、复杂任务中的实际应用潜力。
▍CTS框架:强化学习信息传递新范式
为了解决足式机器人运动控制强化学习中数据利用率低、信息提炼效率差、学习效果不令人满意等问题,浙江大学、南方科技大学的研究团队与逐际动力合作提出了一种创新的并行教师-学生强化学习架构(Concurrent Teacher-Student,简称CTS)。
传统的教师-学生方法通常涉及两个阶段的训练过程。首先,利用强化学习训练一个拥有所有运动相关信息(例如地形细节、接触信息、***惯性参数)的教师策略。然后,学生策略仅使用来自自身传感器的反馈,通过监督学习来重建教师策略的潜在表征。
与此不同,CTS架构突破性地允许教师和学生策略网络在强化学习框架下同时训练。通过对网络架构的巧妙设计,在训练过程中模糊化教师和学生网络概念,这种方法不仅提高了学习效率,还使得策略网络能够更好地适应复杂和动态变化的环境。
CTS架构的核心思想是让教师和学生策略在训练过程中相互促进、共同进步。教师策略虽然能够访问更多的信息,但它也从学生策略的学习过程中获益,特别是在处理不确定性和环境变化方面。同时,学生策略不仅学习教师的行为,还通过自身与环境的交互来优化其决策能力。
CTS架构具有几个关键特性,使其在足式机器人运动控制任务中表现出色:
1.并行训练机制:教师和学生策略网络在同一时间内进行交互学习,这不仅提升了训练效率,还增强了两个网络之间的协同效应。教师网络能够根据学生网络的表现动态调整其教学策略,而学生网络则能够更快速、更有效地从教师那里学习关键信息。
2.改进的策略梯度优化方法:研究者基于广泛使用的PPO(Proximal Policy Optimization)算法进行了修改,使其能够同时优化教师和学生策略。这种优化方法不仅保证了学习过程的稳定性,还能够有效平衡教师和学生策略的性能提升。
3.数据样本共享机制:在CTS框架中,教师和学生策略与环境交互时收集的数据样本被共同用于训练过程。这种共享机制极大地提高了数据利用效率,使得有限的训练样本能够同时服务于两个网络的优化。更重要的是,这种方法使得学生策略能够从教师策略处理高信息量数据的方式中学习,即使学生策略本身无法直接访问这些高信息量数据。
4.融合模仿学习和强化学习:CTS架构中的学生策略训练过程融合了模仿学习和强化学习的优势。学生策略不仅通过模仿教师策略来学习基本的行为模式,还通过独立的强化学习目标来优化其性能。这种双重学习机制使得学生策略能够在保持稳定性的同时,逐步超越简单模仿的局限,发展出更加灵活和适应性强的行为策略。
▍技术验证与实际应用
为了验证CTS架构的有效性,研究者们进行了一系列全面的实验。这些实验包括与***新技术的定量模拟比较,以及在四足和点式双足机器人平台上进行的室内场景(如办公室、实验室)和室外场景(如草地、砂石路面)测试。
结果显示,CTS架构在学习效率、策略稳定性和泛化能力等方面都表现出明显优势。特别是在处理高度动态和不确定的环境时,CTS训练出的策略展现出了更强的适应能力。
CTS架构训练的机器人展示了以下能力,展现出**的性能:
稳定的步态:在各种地形上保持稳定的步态,包括平地、斜坡和不规则表面。
环境适应性:能够快速适应不同的地面条件,如从硬质地面到软质地面的过渡。
抗干扰能力:在面对外部推力和意外障碍物时表现出强大的鲁棒性。
本文摘自:网络 日期:2024-10-11
详情点击:安川机器人示教器
详情点击:安川机器人示教器