跳动百科

揭秘 DeepSeek 内幕,为什么强化学习是下一个 Scaling Law?

单宇富   来源:网易

DeepSeek作为一款大语言模型(LLM),其内幕揭秘显示,强化学习(RL)是其成功的关键,并可能成为下一个Scaling Law。DeepSeek通过纯强化学习技术显著提升了模型的推理能力,特别是DeepSeek R1,它不仅复现了OpenAI模型的推理水平,有时甚至超越它们。

强化学习之所以被视为下一个Scaling Law,是因为它让AI进行自主探索、连续决策,这种方式最接近人类的学习方式。通过RL self-play和MCTS等技术,LLM可以进一步提升推理能力,优化scaling law。DeepSeek R1引入的组相对策略优化(GRPO)算法,改进了模型在无正确答案情况下的响应评估,提高了训练效率。

总之,DeepSeek的成功展示了强化学习在提升LLM性能方面的巨大潜力,预示着强化学习将成为推动人工智能发展的新动力,引领LLM领域的新一轮技术范式转移。