文学城论坛

+A-

所有的成功都是站在巨人的肩膀上负重而来，没有什么捷径。刚读完DS第一版发布的技术论文，就对LLM作了很多工程改进，

成功的飞过 2025-01-28 09:06:06 ( reads)

花了很多精力探索、调试最优宏观参数组合。而且花了很多精力prepare培训数据(The filtering stage enhances the density of information). 抛弃了简单以参数量度量模型复杂度，改用 IsoFLOP。抛弃了简单的Cosine学习速度计划，改用多级进阶式学习速度计划。等等等等。

成功绝非偶然，也不是一蹴而就。

这还只是第一版，引起轰动的DS R1是其第四版。

跟帖(21)

静静的顿河02

2025-01-28 09:10:12

赞passion. 以后抬杠底气也足些。

成功的飞过

2025-01-28 09:10:55

也赞你抬杠的passion，LOL

phobos

2025-01-28 09:12:00

你俩像极了鲁直怼东坡，佛印抚掌大喜

静静的顿河02

2025-01-28 09:13:00

理不辩不明。

oryzivore

2025-01-28 09:12:28

飞过哥虽然灌水多，那还是因为读的多有积累

phobos

2025-01-28 09:11:00

贾岛的孤寒、香山的捣练妇人，或东坡鲁直佛印的synergy？

成功的飞过

2025-01-28 09:13:15

云深不知处

amiyumi

2025-01-28 09:13:42

看来数据培训还是中国人占优势。

成功的飞过

2025-01-28 09:15:11

我觉得更大的因素是他们一步一步地提高了模型的底层结构和算法

amiyumi

2025-01-28 09:18:17

应该是这样的

想做土家人

2025-01-28 09:16:24

做得早，体量大，数据海就是人工智能的养分，根据要求一个受精卵能裂变分化到孕育胎儿，养分就是数据喂出来的

Bailey4321

2025-01-28 09:15:53

只有你一个人去看paper了？或者就是看明白的人都不说话。lol

成功的飞过

2025-01-28 09:21:52

好奇害死猫

Bailey4321

2025-01-28 09:23:24

紫檀派你继续去学习。拍杏！

专业潜水妈

2025-01-28 09:33:02

我前几周就扫过几眼，看不懂：）需要从transformer 那篇补课

Bailey4321

2025-01-28 09:47:29

你太强了。这里除了你俩，可能还有几个。其他人都在拍脑门

正园

2025-01-28 09:16:17

网上传言，有一个本科北师大的女孩主导了DS的第二版本，现在被小米以千万人民币（还是4千万？）聘用。

成功的飞过

2025-01-28 09:17:36

真金实银最有说服力

京男

2025-01-28 09:20:19

留下来股票

静静的顿河02

2025-01-28 09:19:19

小猪爸深度学习后值200万，保守估计。

成功的飞过

2025-01-28 09:20:41

金猪马米，那是面筋妈，LOL