文学城论坛
+A-

我的一点看法,我花了点时间学习Deepseek的training方法

当年情 2025-01-02 09:04:15 ( reads)

它的优化主要是engineering optimization on training pipeline and methods,所谓算法优化是误导。

这个优化说难不难,说不难很难,主要是需要一个专注的团队钻进去,如果放在美国的大公司,一般来讲要一年。决策者怎么想很重要,硬件不是问题的时候,没有决策者会干这种傻事,速度比成本更重要。

这个优化能让效率提高10倍,就好比各大航空公司购买燃油,现在跑同样的航班每周跑100个,用了新方法后,只需要1/10的燃油。

如果要维持燃油公司的原来的利润,就需要航空公司每周跑1000个航班。

跟帖(7)

12qw

2025-01-02 09:11:15

中国特色

neillu

2025-01-02 09:25:49

中国特色还没有上路

bupu

2025-01-02 09:23:00

没问题,但是chatgpt离AGI还差十万八千里,deepseek更是,没有迹象表明scaling law失效了

neillu

2025-01-02 09:39:09

完全失效

bupu

2025-01-02 09:39:55

link please

neillu

2025-01-02 09:43:26

现在除了斯特曼,整个AI都是这个共识啊,这半年都在议论这个

bupu

2025-01-02 09:48:04

我了解的业界情况并非如此。所以,link please