大家都在说deepseek,但是没说到点子上,尤其在NVDA上
大家讨论deepseek的点是什么?无非就是通过优化算法和参数,用更少的资源达到和现有模型差不多的水平。
先不说NVDA。就说deepseek这个事情的意义是啥,其实就是现有模型,即使没有底层原理的突破,目前也并不是最优的。
但是如果从应用上来讲,两条路子,一个是堆砌硬件和能源,一个是优化算法。但是两者冲突么?并不是。
因为现在还没有达到scaling law的极限,就说deepseek吧,如果把OPENAI的资源给幻方,deepseek v3是不是能达到比GPT4o更优的表现?如果是,那么对切硬件就还是有意义的。现在OPENAI肯定内部在想着优化他们算法的事情了。其他大公司也一样。只要scaling law还没有达到极限,之前堆砌的硬件就还有意义,而且会继续。
但是,对于小公司而言,deepseek的意义重大,因为他们搞不到OPENAI或者Tsla的资源,拿不到那么多GPU,但是deepseek给了希望,这样,他们也会开始搞自己的专属模型,或许没有那么通用,但是在某一个方面可以细调微调,从而达到可观的效果。
FightwtMM
2025-01-02 08:45:44搞大模型没问题,但一窝蜂的去搞就有问题。应该有个balance,个人觉得方法和算法更需要重视