所有的成功都是站在巨人的肩膀上负重而来,没有什么捷径。刚读完DS第一版发布的技术论文,就对LLM作了很多工程改进,
成功的飞过
2025-01-28 09:06:06
( reads)
花了很多精力探索、调试最优宏观参数组合。而且花了很多精力prepare培训数据(The filtering stage enhances the density of information). 抛弃了简单以参数量度量模型复杂度,改用 IsoFLOP。抛弃了简单的Cosine学习速度计划,改用多级进阶式学习速度计划。等等等等。
成功绝非偶然,也不是一蹴而就。
这还只是第一版,引起轰动的DS R1是其第四版。
静静的顿河02
2025-01-28 09:10:12赞passion. 以后抬杠底气也足些。