9K样本逼近R1,RL提升大半归SFT

从217篇论文中选出24篇

重点关注

也值得关注