我的一点看法,我花了点时间学习Deepseek的training方法
当年情
2025-01-02 09:04:15
( reads)
它的优化主要是engineering optimization on training pipeline and methods,所谓算法优化是误导。
这个优化说难不难,说不难很难,主要是需要一个专注的团队钻进去,如果放在美国的大公司,一般来讲要一年。决策者怎么想很重要,硬件不是问题的时候,没有决策者会干这种傻事,速度比成本更重要。
这个优化能让效率提高10倍,就好比各大航空公司购买燃油,现在跑同样的航班每周跑100个,用了新方法后,只需要1/10的燃油。
如果要维持燃油公司的原来的利润,就需要航空公司每周跑1000个航班。
12qw
2025-01-02 09:11:15中国特色