看了DeepSeek-R1的论文,我觉得它是如此简洁,推理能力的培养是如此的水到渠成(甚至对人类自己的教育都有些启示意义),因此录制了这期节目,帮助更多的人了解这个简单又动人的算法设计。相信只要用过DeepSeek的深度推理功能,都会对它超长的思维链印象深刻,听了这期节目就能明白这样的思维链是怎么培养出来的 :)
一些有关的单集:
《Vol.1 从神经元到大模型需要几步?》可以建立对人工智能的基本概念;
《Vol.13 高频交易究竟在捣鼓什么东西?》搞懂DeepSeek母公司幻方量化都做些什么;
《Vol.17 英伟达垄断的不是显卡而是CUDA》险些被DeepSeek打脸的上一期节目。
录制只能在楼下鞭炮的间隙中进行,若有听感损失敬请谅解。。。抛砖引玉,欢迎评论区对论文内容做批评、补充 :)
P.S.强化学习的优化函数