文学城论坛

+A-

我的一点看法，我花了点时间学习Deepseek的training方法

当年情 2025-01-02 09:04:15 ( reads)

它的优化主要是engineering optimization on training pipeline and methods，所谓算法优化是误导。

这个优化说难不难，说不难很难，主要是需要一个专注的团队钻进去，如果放在美国的大公司，一般来讲要一年。决策者怎么想很重要，硬件不是问题的时候，没有决策者会干这种傻事，速度比成本更重要。

这个优化能让效率提高10倍，就好比各大航空公司购买燃油，现在跑同样的航班每周跑100个，用了新方法后，只需要1/10的燃油。

如果要维持燃油公司的原来的利润，就需要航空公司每周跑1000个航班。

跟帖(7)

12qw

2025-01-02 09:11:15

中国特色

neillu

2025-01-02 09:25:49

中国特色还没有上路

bupu

2025-01-02 09:23:00

没问题，但是chatgpt离AGI还差十万八千里，deepseek更是，没有迹象表明scaling law失效了

neillu

2025-01-02 09:39:09

完全失效

bupu

2025-01-02 09:39:55

link please

neillu

2025-01-02 09:43:26

现在除了斯特曼，整个AI都是这个共识啊，这半年都在议论这个

bupu

2025-01-02 09:48:04

我了解的业界情况并非如此。所以，link please