阿里Qwen提出强化学习新算法GSPO

据通义千问Qwen，为了能够持续拓展强化学习（Reinforcement Learning，RL），提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法，GSPO定义了序列级别的重要性比率，并在序列层面执行裁剪、奖励和优化。