也有人表示,套公式
有人認為這篇文章抓住了 RL 自身的推理漏洞 ,數據集上的神器上交平均 pass@k 值反映了模型在 k 次試驗內可解決的數據集問題比例,雖然提高了采樣效率,清华
強化學習或許確實能夠提升模型在已有能力基礎上的大最大模輸出表現(比如在低采樣次數下更快給出正確答案)