自蒸馏改进代码生成

AI Code Generation Research 来源: arXiv 2604.01193 | 2026-04-01

核心发现

一项突破性研究表明,大语言模型可以通过简单的自蒸馏(Self-Distillation)方法提升代码生成能力,无需 verifier、teacher model 或强化学习。

在 LiveCodeBench v6 上:

42.4% → 55.3% (+12.9%)

Qwen3-30B-Instruct

方法原理

Simple Self-Distillation (SSD) 的核心步骤:

  1. 使用特定的 temperature 和 truncation 配置从模型中采样解决方案
  2. 然后使用标准监督微调(SFT)对这些样本进行微调

为什么有效?

研究者将性能提升归因于解决了一个核心问题:LLM 解码中的 precision-exploration 冲突

"SSD offers a complementary post-training direction for improving LLM code generation"

泛化能力

该方法在多种规模和架构上有效:

关键洞见

  1. 简单方法往往更有效:无需复杂的 RL 或 verifier
  2. 自身输出可以作为优质训练数据
  3. 关键是控制采样时的 temperature 和 truncation
  4. 对困难问题的提升尤为明显

相关链接


© 2026 每日洞察 | 内容基于公开研究论文