文学城论坛
+A-

所有的成功都是站在巨人的肩膀上负重而来,没有什么捷径。刚读完DS第一版发布的技术论文,就对LLM作了很多工程改进,

成功的飞过 2025-01-28 09:06:06 ( reads)

 

花了很多精力探索、调试最优宏观参数组合。而且花了很多精力prepare培训数据(The filtering stage enhances the density of information). 抛弃了简单以参数量度量模型复杂度,改用 IsoFLOP。抛弃了简单的Cosine学习速度计划,改用多级进阶式学习速度计划。等等等等。

成功绝非偶然,也不是一蹴而就。

这还只是第一版,引起轰动的DS R1是其第四版。

 

 

 

跟帖(21)

静静的顿河02

2025-01-28 09:10:12

赞passion. 以后抬杠底气也足些。

成功的飞过

2025-01-28 09:10:55

也赞你抬杠的passion,LOL

phobos

2025-01-28 09:12:00

你俩像极了鲁直怼东坡,佛印抚掌大喜

静静的顿河02

2025-01-28 09:13:00

理不辩不明。

oryzivore

2025-01-28 09:12:28

飞过哥虽然灌水多,那还是因为读的多有积累

phobos

2025-01-28 09:11:00

贾岛的孤寒、香山的捣练妇人,或东坡鲁直佛印的synergy?

成功的飞过

2025-01-28 09:13:15

云深不知处

amiyumi

2025-01-28 09:13:42

看来数据培训还是中国人占优势。

成功的飞过

2025-01-28 09:15:11

我觉得更大的因素是他们一步一步地提高了模型的底层结构和算法

amiyumi

2025-01-28 09:18:17

应该是这样的

想做土家人

2025-01-28 09:16:24

做得早,体量大,数据海就是人工智能的养分,根据要求一个受精卵能裂变分化到孕育胎儿,养分就是数据喂出来的

Bailey4321

2025-01-28 09:15:53

只有你一个人去看paper了?或者就是看明白的人都不说话。lol

成功的飞过

2025-01-28 09:21:52

好奇害死猫

Bailey4321

2025-01-28 09:23:24

紫檀派你继续去学习。拍杏!

专业潜水妈

2025-01-28 09:33:02

我前几周就扫过几眼,看不懂:)需要从transformer 那篇补课

Bailey4321

2025-01-28 09:47:29

你太强了。这里除了你俩,可能还有几个。其他人都在拍脑门

正园

2025-01-28 09:16:17

网上传言,有一个本科北师大的女孩主导了DS的第二版本,现在被小米以千万人民币(还是4千万?)聘用。

成功的飞过

2025-01-28 09:17:36

真金实银最有说服力

京男

2025-01-28 09:20:19

留下来股票

静静的顿河02

2025-01-28 09:19:19

小猪爸深度学习后值200万,保守估计。

成功的飞过

2025-01-28 09:20:41

金猪马米,那是面筋妈,LOL