Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
针对大型推理模型后训练中在线策略蒸馏(OPD)需要实时教师服务器导致的高昂基础设施开销问题,提出Lightning OPD离线框架。首次揭示"教师一致性"是OPD的必要条件,在SFT rollout上一次性预计算教师对数概率,消除对实时教师服务器的依赖,训练效率提升4.0倍,AIME 2024达到69.9%。