鲲航（QUANSER） | 强化学习落地经典控制！鲲航（Quanser）这款创新装置实现倒立摆精准平衡

强化学习落地经典控制！鲲航（Quanser）这款创新装置实现倒立摆精准平衡

在控制工程与人工智能的交叉领域，倒立摆始终是验证算法有效性的经典实验载体，其非线性、欠驱动的特性对控制策略提出极高要求。如今，强化学（RL）为这类动态系统控制带来全新解法，本文将以鲲航（Quanser）机电控制与计算智能综合创新装置（Qube-Servo 3）为核心，详解如何借助MathWorks强化学习工具箱，完成从算法设计、仿真训练到硬件落地的全流程倒立摆平衡控制，实现AI与经典控制工程的完美融合。

强化学习作为机器学习的重要分支，与依赖静态数据的有监督、无监督学习不同，它依托智能体与环境的动态交互数据完成训练，核心是以奖励信号为导向持续优化决策策略。如今这一技术已广泛应用于自动驾驶、智能机器人等领域，更是为控制系统设计打开了全新思路。

在动态系统控制中，强化学习的核心组件分工明确，共同构成闭环控制体系：

环境：包含被控对象及测量噪声、外部干扰、信号滤波等所有智能体外因素；
策略：类比PI/PD/PID等传统控制方法，根据环境观测值和奖励信号输出控制动作；
强化学习算法：根据交互过程中的观测值和奖励信号，实时更新优化策略；
奖励函数：判定系统是否趋近控制目标，与LQR控制的代价函数相反，以最大化数值为核心目标；
观测值：系统实测信号，为算法和策略提供决策依据；
动作：输出到被控对象的控制信号，直接驱动系统运行。

图1：强化学习的基本组件和交互流程

一、鲲航（Quanser）机电控制与计算智能综合创新装置的强化学习设计方案

鲲航（Quanser）机电控制与计算智能综合创新装置（Qube-Servo 3）配备双编码器，可精准测量旋转臂（直流电机角度）和摆杆的位置信息，旋转臂底座的直流电机为系统提供动力，是集机电控制、智能算法验证于一体的专业实验平台。本次设计基于Simulink搭建仿真模型，将强化学习核心组件全部融入，打造适配该装置的专属控制方案。

图2：强化学习的工作流程

1.环境定义：精准复刻装置非线性动力学特性

训练智能体的环境为鲲航（Quanser）Qube-Servo 3倒立摆的非线性动力学模型，相较于线性模型，它能更精准还原装置的硬件动力学特性，适用范围更广，更贴合实际实验场景。本次采用基于模型的强化学习训练方法，此外也支持将硬件直接融入训练的无模型方法，可根据教学、科研需求灵活选择。

2.奖励与停止信号：划定训练边界，优化智能体决策导向

奖励信号设计是强化学习的核心，停止信号则为训练划定合理边界，二者结合能大幅提升策略训练成功率，也是适配鲲航装置硬件特性的关键设计：

停止信号触发条件：结合装置物理极限，当旋转臂角度超出±60°、倒立摆角度超出±10°、电机电压超出±5V时，立即终止当前训练回合，避免系统进入无效状态，保护硬件设备；
奖励函数设计：采用二次型奖励函数，当旋转臂保持0°基准位置、摆杆实现稳定平衡、电机控制电压维持在合理范围时，为智能体提供奖励；同时将停止信号融入奖励信号，触发停止条件时对智能体进行惩罚（降低得分）。实践证明，这类奖励信号更易调参，能有效提升针对鲲航装置的训练成功率。

图3：奖励函数公式

3.观测与动作信号：明确装置交互数据维度

针对鲲航（Quanser）Qube-Servo 3的硬件特性，设计精准的交互数据维度，确保信号采集与控制输出的有效性：

观测信号（4维度）：旋转臂角位置、旋转臂角速度、摆杆角位置、摆杆角速度，全面反映装置实时运行状态；
动作信号（1维度）：输出到直流电机的电压信号，直接驱动装置完成控制动作。

4.智能体选择与训练：适配装置的DDPG智能体

从MathWorks强化学习工具箱中选择深度确定性策略梯度（DDPG）智能体，核心原因是其能输出连续的动作空间，且在各类摆杆控制应用中已得到充分验证，完美适配鲲航倒立摆的连续控制需求。

智能体在MATLAB中完成创建，直接调用Simulink模型中定义的环境、奖励、观测及动作信号，通过`train`命令完成训练，训练后的最优策略将存储在Simulink的“RL Agent”模块中，直接用于鲲航装置的后续控制。

5.成功训练的三大关键：适配鲲航（Quanser）机电控制与计算智能综合创新装置的核心要点

强化学习训练涉及大量参数，想要训练出能稳定平衡鲲航（Quanser）Qube-Servo 3的智能体，需把握三大核心要点：

①设计重置函数，随机化倒立摆初始位置，让智能体能在±10°的倒立平衡位置范围内实现稳定控制，提升算法鲁棒性；
②合理设置停止信号，在系统超出装置硬件物理限制时终止训练回合，大幅缩短总训练时间，同时保护硬件；
③采用包含停止信号惩罚的二次型奖励信号，降低策略寻优难度，提升针对鲲航装置的训练效率。

6.设计目标与核心可调参数

本次针对鲲航（Quanser）Qube-Servo 3的强化学习设计，设定两大核心目标：

①在非线性模型仿真中，实现倒立摆±10°初始位置的稳定平衡控制；
②在QLabs虚拟孪生平台中，手动抬起摆杆后，智能体能快速实现装置的稳定平衡。

训练过程中，结合鲲航装置的特性，重点调整四类核心参数，兼顾训练效率与控制效果：

奖励函数的二次型权重；
倒立摆初始角度范围（重置函数参数）；
仿真持续时间（在保证平衡的前提下尽量缩短，减少训练时间）；
Simulink模型采样时间（选择完成控制任务的最低采样率，控制训练时长）。

二、三级验证：从仿真到硬件，鲲航装置实现稳定落地

训练出合格的强化学习智能体后，通过仿真、虚拟孪生、实际硬件三个层级的测试，逐步验证策略对鲲航（Quanser）机电控制与计算智能综合创新装置的有效性和可落地性，确保从虚拟设计到物理实验的无缝衔接。

图5：用于强化学习的Simulink模型

1.仿真测试：快速验证核心控制效果

在训练智能体的同一Simulink非线性模型中测试，当摆杆从偏离竖直平衡位置约-7.5°的初始位置启动时，摆杆能在0.4秒内快速实现稳定平衡，控制效果与经典LQR控制相当，且电机电压控制信号平滑，为后续在鲲航（Quanser）Qube-Servo 3上的测试奠定坚实基础。

2.虚拟孪生测试：还原装置特性，提前排查实验问题

基于QLabs搭建鲲航（Quanser）Qube-Servo 3的虚拟孪生平台，该平台融入了直流电机摩擦、信号调理等装置真实硬件特性，比仿真模型更贴近实际实验场景。

由于虚拟摆杆初始为下垂状态（与鲲航（Quanser）Qube-Servo 3实际装置一致），设计“平衡控制使能切换”机制，当摆杆被抬至竖直位置±10°范围内时，智能体才输出控制信号。测试结果显示，摆杆抬起至指定范围后，智能体能快速实现装置稳定平衡，旋转臂的振荡特性与鲲航（Quanser）Qube-Servo 3实际硬件高度一致，验证了策略在装置上的可实现性。

图9：用于虚拟实验的Simulink模型

3.硬件测试：鲲航（Quanser）机电控制与计算智能综合创新装置实现强化学习实时控制落地

借助鲲航（Quanser）QUARC实时控制软件，将训练好的策略正式部署到鲲航（Quanser）机电控制与计算智能综合创新装置实际硬件上，搭建实时闭环控制体系：

通过Simulink/QUARC模型中的“HIL Write Analog”模块，向装置直流电机输出控制电压；
通过“HIL Read Encoder Timebase”模块，借助装置双编码器采集旋转臂和摆杆的角度数据，实现实时反馈。

硬件测试结果与虚拟孪生高度相似：旋转臂通过小幅振荡实现摆杆稳定平衡（振荡中心约15°），电机控制信号存在轻微噪声，整体成功实现了鲲航倒立摆的稳定平衡控制。

需注意的是，因R2025b版本中“RL Agent”模块暂不支持代码生成，本次部署通过强化学习工具箱的“Policy”模块完成策略落地，确保在鲲航装置上的实时运行效果。

三、总结与展望：强化学习为鲲航（Quanser）机电控制与计算智能综合创新装置解锁更多应用可能

本次实践充分证明，强化学习可成功应用于机电系统的高级控制任务，且能在鲲航（Quanser）机电控制与计算智能综合创新装置上实现从仿真设计到硬件实验的完整落地。相较于传统基于模型的控制方法，强化学习无需对装置进行极致精准的建模，能通过与环境的交互自适应优化策略，对装置的非线性、不确定性特性具有更强的适应性，为控制工程教学、科研提供了全新的实验思路。

目前，强化学习在控制领域的应用仍处于积极发展阶段，还面临奖励信号设计、参数繁多、训练时间长等挑战，未来结合鲲航（Quanser）机电控制与计算智能综合创新装置，可从两大方向继续优化探索：

①简化强化学习策略的设计流程，建立系统化的设计方法，探究对装置控制响应影响最大的关键因素，如提升平衡响应速度、降低控制信号噪声；
②拓展控制目标，设计能同时实现摆杆起摆与平衡的强化学习控制器，进一步挖掘鲲航装置在智能控制算法验证中的潜力。

强化学习与传统控制工程的融合，正在为复杂动态系统控制带来更多创新解法。而鲲航（Quanser）机电控制与计算智能综合创新装置作为专业的实验平台，为这一融合提供了优质的硬件载体，相信随着算法的不断优化和工具的持续升级，这款装置将在控制工程教学、智能算法科研中发挥更大作用，解锁更多AI+控制的应用可能。

想要获取本次针对鲲航（Quanser）机电控制与计算智能综合创新装置的强化学习控制完整设计细节、MATLAB脚本及Simulink模型，可联系我们获取！

一、鲲航（Quanser）机电控制与计算智能综合创新装置的强化学习设计方案

二、三级验证：从仿真到硬件，鲲航装置实现稳定落地

战略合作单位：

中国自动化学会青年工作委员会

战略合作单位：

中国自动化学会青年工作委员会