xyk456as
发表于 2025-1-27 11:55
RZ.zheng 发表于 2025-1-27 11:43
我是圈外人,我想请问一下deepseek的训练方法开源了那是不是其他大公司也能用这样的方法来训练呢?如果是 ...
[偷笑]并不会少买,很简单一个道理:难道种子高产了,农场就会少种地么?至少近几年全人类对算力更大的需求趋势是不会变的
[流泪]当然NV想像24年一样躺着吃确实也不可能了,deepseek开源意味着其他潜在的供应商(农企、昇腾乃至之前的ASIC矿机厂又有重回赛道的快车道了)
dcx_310
发表于 2025-1-27 11:56
毛茸茸 发表于 2025-1-27 11:06
这公司产品如此牛逼,在chat**出来之前肯定一直在默默耕耘,著作等身,厚积薄发吧。事实上呢:杭州深度求索 ...
一看就是平时不关心政治的
PolyMorph
发表于 2025-1-27 11:59
msrp已经[偷笑]是做慈善了
还在做什么大梦
acki
发表于 2025-1-27 12:05
拭目以待吧,一点不看好,我只知道国内请一个文科硕士要比买块H100简单的多。什么蒸馏法,呵呵。
bxsoft
发表于 2025-1-27 12:12
RZ.zheng 发表于 2025-1-27 11:43
我是圈外人,我想请问一下deepseek的训练方法开源了那是不是其他大公司也能用这样的方法来训练呢?如果是 ...
对算力行业短期内肯定有冲击,今天美股就能反应出来,但是ds这个创新大幅降低了训练成本,意义是能加快llm的普及,后面肯定会有更多的公司参与进来,但是在AGI没有到来之前,算力依然很重要
RZ.zheng
发表于 2025-1-27 12:14
bxsoft 发表于 2025-1-27 12:12
对算力行业短期内肯定有冲击,今天美股就能反应出来,但是ds这个创新大幅降低了训练成本,意义是能加快ll ...
再问一下,是不是AMD的卡也能用于DS这种方式的训练呢,如果可以那岂不是很多企业会转向A卡
tanleiqu
发表于 2025-1-27 12:18
jihuan 发表于 2025-1-27 11:29
看了deepseek写的骈体文言,初一看很惊艳,仔细一看就是gousi,典故用的惨不忍睹,金玉其外,败絮其中。 ...
你这话说的,哪家大模型写的不是狗食
ONEChoy
发表于 2025-1-27 12:21
[偷笑] 当年588缘开光588的场景?快进到年底小鱼309吧。。。老衲愿意双倍捐赠请进功德缸 以表广结善缘广纳福缘之初芯。。。
我輩樹である
发表于 2025-1-27 12:25
本帖最后由 我輩樹である 于 2025-1-27 12:28 编辑
deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型,所以它的成本会很低,目测会冲击到老黄,但是应该影响不大。因为这等于是大家在拼算力达到scaling law的受益边界时,突然有人重开了一条赛道,这条赛道只需要之前那条赛道的几十分之一的算力。
但是新赛道大家重新起跑后,还是会进入算力的比拼(猜测),目前还要看MoE架构对scaling law的耐受性了。
MoE并不是什么新架构(但是deepseek的训练方法是很新颖的),但要么是指在实验室里没有落地,要么效果很一般,目前比较成功的就是deepseek和chat** o1,但后者是闭源,你研究出来了但是只能自己玩,对业界贡献不大。前者是开参(论文部分开源)的,他至少证明了MoE架构的成功,类似帮人探索了前路。
以后很多业界大厂会一窝蜂转MoE吧,特别是谷歌他们本来就对MoE非常感兴趣,MoE虽然是94年的论文,之前还有个联盟学习也比较类似的概念,但进入深度学习是谷歌的17年论文。
acki
发表于 2025-1-27 12:32
一个工厂交社保的工人500个,背地里招了9500个黑工,然后报税的时候只能按照500人核算成本,9500人的工资开销是准备在资本市场割回来了。
captain23
发表于 2025-1-27 12:37
毛茸茸 发表于 2025-1-27 11:06
这公司产品如此牛逼,在chat**出来之前肯定一直在默默耕耘,著作等身,厚积薄发吧。事实上呢:杭州深度求索 ...
你怕不是不知道幻方在业内的能量,国内最早破千亿规模的私募,光管理费你算下就有多少了。这几年虽然业绩一般,但是因为降规模和换策略了。早几年赚麻了。禁令前老板一口气屯了一万多张卡,有万卡的公司你再看看有几家。
bxsoft
发表于 2025-1-27 12:41
RZ.zheng 发表于 2025-1-27 12:14
再问一下,是不是AMD的卡也能用于DS这种方式的训练呢,如果可以那岂不是很多企业会转向A卡 ...
别说,AMD反应还是挺快的[偷笑]第一时间已将DeepSeek V3 模型集成到MI300X GPU上,针对AI推理进行了优化,大家看老黄赚钱都眼红啊,但是我觉得老黄这个生态壁垒短时间内应该没人能打破
8owd8wan
发表于 2025-1-27 12:52
我輩樹である 发表于 2025-1-27 12:25
deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型,所以它的成本会很低,目测会 ...
deepseek 的强化训练方法,这两天很多学术机构的 AI 实验室都复现了。
还是很振奋人心的
毕竟巨头就那么几家,其他团队,尤其是学校实验室里的,都是屌丝啊。现在感谢 deepseek ,屌丝们可以继续快乐地做研究发论文,能不狂欢吗?
我輩樹である
发表于 2025-1-27 12:56
8owd8wan 发表于 2025-1-27 12:52
deepseek 的强化训练方法,这两天很多学术机构的 AI 实验室都复现了。
还是很振奋人心的
毕竟巨头就那么 ...
实验室屌丝能收获一个比llama强的模型就好了。
预训练那都是神仙打架,咱就看看。
tianyuansnow
发表于 2025-1-27 13:05
电价下降了,不代表总电费就会下降
原本很多因为电费成本制约的技术就会更加普及,比如用电力净化海水
反而可能导致总电费上涨
dikuf001
发表于 2025-1-27 13:05
本帖最后由 dikuf001 于 2025-1-27 13:12 编辑
cyberms 发表于 2025-1-27 11:10
人家搞量化交易好多年了。
搞金融是最复杂的比通用ai复杂多了,因为完全没有规则。 ...
有,总规则就是在波动中低买高卖,低吸高抛。但人类有恐惧和贪婪,量化没有。。所以,人类被割的嗷嗷叫,除非你人类强行不顾道德,法律,耍流氓,看看那个长期资本是如何破产引发美国金融危机的。。。
wuxi001
发表于 2025-1-27 14:19
小心老美锁掉所有 DEEPSEEK 50000 张 H100 算力卡。
8xwob3ko
发表于 2025-1-27 14:22
我輩樹である 发表于 2025-1-27 12:25
deepseek使用的MoE架构是一个在推理的时候只需要激活少量“专家”参数的模型,所以它的成本会很低,目测会 ...
应该早有不少转了,我看字节上周发的豆包1.5也是MoE
panzerlied
发表于 2025-1-27 14:25
骑兵连,进攻!
云和月
发表于 2025-1-27 14:29
acki 发表于 2025-1-27 12:32
一个工厂交社保的工人500个,背地里招了9500个黑工,然后报税的时候只能按照500人核算成本,9500人的工资开 ...
你这就是华尔街的说法呗,虽然我没有证据,但它一定偷偷用了5万张H100,但不敢公布。
8owd8wan
发表于 2025-1-27 14:29
我輩樹である 发表于 2025-1-27 12:56
实验室屌丝能收获一个比llama强的模型就好了。
预训练那都是神仙打架,咱就看看。 ...
DeepSeek公开强化训练方法可以复刻,已经足够让屌丝团队开心啦。
知足常乐
我輩樹である
发表于 2025-1-27 14:32
8xwob3ko 发表于 2025-1-27 14:22
应该早有不少转了,我看字节上周发的豆包1.5也是MoE
各家技术储备都是有的。kimi今天不是也发新的了么?估计马上会有一大波更新。这就是开源的好处。
fgfdhgg
发表于 2025-1-27 14:36
你以为的是:投资方“以前100算力的项目现在只需要10算力,我可以少投90%好爽”然后老黄亏麻了
实际上的:投资方“以前100算力的项目,现在只需要10算力,意思是我现在投一样的钱可以获得十倍算力的产出,加仓加仓”老黄苏妈大家一起猛猛赚
AI这块算力永远没人嫌少,技术发展只会让算力应用更有效而不是用的更少
atiufo
发表于 2025-1-27 14:40
fgfdhgg 发表于 2025-1-27 14:36
你以为的是:投资方“以前100算力的项目现在只需要10算力,我可以少投90%好爽”然后老黄亏麻了
实际上的: ...
是这样的[偷笑]
8owd8wan
发表于 2025-1-27 14:41
fgfdhgg 发表于 2025-1-27 14:36
你以为的是:投资方“以前100算力的项目现在只需要10算力,我可以少投90%好爽”然后老黄亏麻了
实际上的: ...
算力扩大,得到的对应收益,不是线性的。
存在边际效应减少的问题
8xwob3ko
发表于 2025-1-27 14:44
我輩樹である 发表于 2025-1-27 14:32
各家技术储备都是有的。kimi今天不是也发新的了么?估计马上会有一大波更新。这就是开源的好处。 ...
现在发说明早就开始做了,等开源再训来不及,但估计是看到deepseek发了其他的也先发再说。
另外成本这个问题,蒸馏肯定比自己从头训成本低,但也不太可能都只做蒸馏,就现在这些模型蒸馏上限也有限,后续多半是结合着做。
ATDpF
发表于 2025-1-27 14:46
毛茸茸 发表于 2025-1-27 11:23
只怕是自己起家的量化他都没做明白,现在全球排名多少?然后跨界一年多就在其它领域碾压世界龙头?根本经 ...
18年的时候,幻方的员工“一只平凡的小猪”就个人捐助了1.38亿
8owd8wan
发表于 2025-1-27 14:50
8xwob3ko 发表于 2025-1-27 14:44
现在发说明早就开始做了,等开源再训来不及,但估计是看到deepseek发了其他的也先发再说。
另外成本这个 ...
咱们处于生态圈下游,能蒸馏,能RL,有可能看到一些私有化垂直落地的希望,就知足了。知足常乐。
pingji
发表于 2025-1-27 14:52
您天天的能不能少点宏大叙事和星辰大海
kinglfa
发表于 2025-1-27 15:05
cyberms 发表于 2025-1-27 10:54
苏妈:DeepSeek-V3模型已集成至AMD InstinctGPU
然后突然发现大陆多了了几十家GPU厂商