近期,我院硕士生在自动化领域顶级会议《International Federation of Automatic Control》上发表题为“Improved Reinforcement Learning Task Supervisor for Path Planning of Logistics Autonomous System”(面向物流自主系统路径规划的改进强化学习任务监管器)的学术论文,该论文第一作者为研究生潘聪捷,指导老师黄捷教授为本文通讯作者。该会议是自动化控制领域的三大世界顶会之一,具有良好的国际学术影响力。
研究背景:
电子商务行业现在严重依赖物流自主系统(LAS),这提高了存储效率并降低了劳动力成本。LAS的性能取决于路径规划、多目标管理、导航定位、自主充电和运动控制等关键技术。然而,路径规划问题目前仍然面临许多挑战,尤其是在存在多个目标的情况下,如何提高交付效率和安全性方面。LAS通常包括几个无人地面车辆(UGV),在可能存在多目标冲突的情况下需要进行路径规划。例如,UGV可能需要将多个包裹运送到几个目的地,而事先不知道运送顺序。
现有的路径规划方法在全局已知的静态环境中规划一条最优路径,例如A*、PSO、遗传算法等,这些方法实时性比较差,无法解决动态临时的障碍物避障问题。加入局部路径规划算法,可以让机器人具有良好的避障能力,例如人工势场,它规划出来的路径仅局部最优,无法保障是全局最优的方案。这些方法通常生成旨在运输成本最小化的路径,而不考虑未知干扰(例如障碍物或碰撞)下存在多任务冲突时的路径规划。此外,这些方法通常无法在干扰后实时重新生成新路径或调整现有路径,无法保证路径的全局最优性。
成果介绍:
我院黄捷教授团队提出了一种改进的强化学习任务监管器(IRLTS),通过“试错学习”的方式减少了物流自主系统对人设计任务优先级切换规则和控制器设计的依赖,且将在线的计算负担转移至离线训练,减少了硬件的计算和存储压力。此外,通过路径长度因素纳入奖励函数设计,在线学习最优的路径规划策略,可以自主生成一条多目标配送的最优路径。该研究成果发表于IFAC world congress 2023。
研究成果中的核心观点如下:
第一, 改进的强化学习任务监管器框架设计用于同时进行动态任务优先级调整和在线路径生成。因此,无人物流车辆在遇到未知障碍物后可以重新规划路径。
图1零空间行为控制框架下LAS的IRLTS系统图
第二, 所提出的强化学习任务监管器使用路径长度作为奖励函数,在遇到障碍物时动态调整交付顺序,以最小化路径长度。这使得LAS能够减少总路径长度,同时将多个包裹运送到多个目的地。
图2 RLTS和IRLTS的比较:(1)三个交货目的地:优先级(2)改变障碍物的位置:优先级(3)三个交付目的地:路径(4)改变障碍的位置:路径
表1 不同方法路径长度对比
综上所述,本文介绍了IRLTS来解决LAS中的路径规划和动态任务优先级调整问题。IRLTS智能地集成了多个任务,以确保UGV的无障碍移动,实时规划多个包装的交付任务,并自动生成最佳交付路线。仿真结果表明,为同时分配和避障任务成功规划了最优路径,从而提高了LAS中任务集成的动态性能。
作者简介:
黄捷,福州大学电气工程与自动化学院教授、博导,福州大学5G+工业互联网研究院院长。曾获首届IEEE/CAA JAS Norbert Wiener Review Award(2017)、SCIENCE CHINA Information Science (SCIS) Five-Year High-Impact Paper Award(2021)等奖项。主要研究方向为:复杂网络动力学、多智能体系统协同控制、数字经济等。
潘聪捷,福州大学电气工程与自动化学院、福州大学5G+工业互联网研究院硕士研究生。主要研究反向为:多智能体强化学习和物流自主系统。