9月17日,梁文鋒團隊在《自然》雜志發(fā)表論文,介紹開源AI模型DeepSeek-R1采用的大規(guī)模推理模型訓練方法。研究表明,通過純強化學習訓練大規(guī)模推理模型,可有效提升大語言模型推理能力并降低人類輸入需求。該模型在數學、編程競賽及STEM領域研究生水平任務中表現優(yōu)異,如數學基準測試得分達77.9%(DeepSeek-R1-Zero)和79.8%(DeepSeek-R1)。模型以解決問題獲獎勵機制強化學習,減少訓練成本與復雜性。團隊稱未來將聚焦優(yōu)化獎勵過程以提高推理可靠性。
(科技日報記者 張夢然 岳靚)