About DeepSeek R1 & Zero
About DeepSeek R1 & Zero
About DeepSeek R1 & Zero
Conclusion
- DeepSeek-R1是完全的新产品吗?
- 不是,DeepSeek-R1是公开了OpenAI-O1的创新路径,并且完全开源;
- 在中美对立的背景下,DeepSeek-R1低成本打破了OpenAI、Claude的垄断,导致巨大反响
- 为什么说DeepSeek-R1-Zero比R1更值得关注?
- 因为DeepSeek-R1-Zero是完全不需要专家CoT打标的,纯Pre-train + RL, 更适合Scaling
- 这就证明了更多算力=金钱,可以确定性带来更多智能
- 智能和CoT长度是完全正相关的吗?
- 不是,通常智能表现为:知识、经验、泛化智能密度
- 知识和经验与模型规模呈正相关
- 泛化智能密度可通过压缩CoT长度来提升, Andrej Karpathy曾提出AGI级别的智能模型可能只需要10B参数,结合大量子模型和Agent实现AGI。
- 对 DeepSeek 和智能下半场的几条判断
- 推理时训练更加重要(当然基模也很重要)
- 压缩CoT长度,可以带来更多泛化智能
- Scaling up & down, 会同时出现,智能提升(大基模)且尺寸下降(蒸馏小模型)
- 合并通用模型和推理模型,例如:O1 + GPT4o –> GPT 5, 类似Claude的路径
- 企业对Agent落地的信心会大大提升,AI公司会加大投入Agent.
Reference
This post is licensed under CC BY 4.0 by the author.