文学城论坛
+A-

大家都在说deepseek,但是没说到点子上,尤其在NVDA上

bupu 2025-01-02 08:41:12 ( reads)

大家讨论deepseek的点是什么?无非就是通过优化算法和参数,用更少的资源达到和现有模型差不多的水平。

 

先不说NVDA。就说deepseek这个事情的意义是啥,其实就是现有模型,即使没有底层原理的突破,目前也并不是最优的。

 

但是如果从应用上来讲,两条路子,一个是堆砌硬件和能源,一个是优化算法。但是两者冲突么?并不是。

 

因为现在还没有达到scaling law的极限,就说deepseek吧,如果把OPENAI的资源给幻方,deepseek v3是不是能达到比GPT4o更优的表现?如果是,那么对切硬件就还是有意义的。现在OPENAI肯定内部在想着优化他们算法的事情了。其他大公司也一样。只要scaling law还没有达到极限,之前堆砌的硬件就还有意义,而且会继续。

 

但是,对于小公司而言,deepseek的意义重大,因为他们搞不到OPENAI或者Tsla的资源,拿不到那么多GPU,但是deepseek给了希望,这样,他们也会开始搞自己的专属模型,或许没有那么通用,但是在某一个方面可以细调微调,从而达到可观的效果。

 

 

跟帖(18)

FightwtMM

2025-01-02 08:45:44

搞大模型没问题,但一窝蜂的去搞就有问题。应该有个balance,个人觉得方法和算法更需要重视

bupu

2025-01-02 08:47:24

为啥巨头现在必须搞?因为AGI诱惑太大,关键这玩意一旦搞成,是赢者通吃,只有老大,没有老二。你可以仔细想想。

FightwtMM

2025-01-02 08:52:06

靠堆算力和parameter上去,老命伤财,并不看好,AGI在一些领域能达到,但要所有领域,目前看不到

bupu

2025-01-02 08:56:30

凡事必须有人做才能慢慢看得到,不去尝试和试错,永远都看不到。但是别人一旦看到了,自己就会落伍甚至被淘汰。

Lisland_2013

2025-01-02 09:07:03

这事有人总结过:NVDA就是淘金热的时候卖铲子的。

bupu

2025-01-02 09:21:27

没问题,这个说法好多年了。所以,只要金子没挖完,铲子就可以继续卖钱。

island09

2025-01-02 09:22:06

NVDA 还不错。目前各大AI 包括中国都需要它

neillu

2025-01-02 08:48:19

deep seek的意义在于,

bupu

2025-01-02 08:59:06

目前没有看到证据说scaling law失效了,如果有,希望能提供链接,谢谢。

island09

2025-01-02 08:51:44

关于deepseek , 看这个

当年情

2025-01-02 09:04:15

我的一点看法,我花了点时间学习Deepseek的training方法

12qw

2025-01-02 09:11:15

中国特色

neillu

2025-01-02 09:25:49

中国特色还没有上路

bupu

2025-01-02 09:23:00

没问题,但是chatgpt离AGI还差十万八千里,deepseek更是,没有迹象表明scaling law失效了

neillu

2025-01-02 09:39:09

完全失效

bupu

2025-01-02 09:39:55

link please

neillu

2025-01-02 09:43:26

现在除了斯特曼,整个AI都是这个共识啊,这半年都在议论这个

bupu

2025-01-02 09:48:04

我了解的业界情况并非如此。所以,link please