找回密码
 加入我们
搜索
      
查看: 29360|回复: 158

[显卡] 探讨和求证deepseek背后的算力真相

[复制链接]
发表于 2025-1-28 12:28 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2025-1-28 12:34 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 12:34 | 显示全部楼层
这写的还不如让DeepSeek自己来,大模型的幻觉都没这么严重。
 楼主| 发表于 2025-1-28 12:35 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2025-1-28 12:37 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2025-1-28 12:41 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2025-1-28 12:48 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 12:59 | 显示全部楼层
enolc 发表于 2025-1-28 12:37
以上内容源自于DeepSeek-R1论文
这才是真正的强化学习。就像著名教育家皮亚杰的理论:真正的理解来自于主动建构,而不是被动接受。

DeepSeek-R1论文里要是真出现了这句话,我建议DeepSeek-R1的研发团队全体辞职回老家卖红薯。
发表于 2025-1-28 12:59 | 显示全部楼层
技术报告可能会选择性的描述事实,但是不太可能说假话,因为没有意义,所以说是 H800*2000 训练的,那就是 H800*2000 训练的
 楼主| 发表于 2025-1-28 13:00 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2025-1-28 13:00 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 13:01 来自手机 | 显示全部楼层
借我点显卡,我来帮你复现后告诉你哈
 楼主| 发表于 2025-1-28 13:02 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 13:06 | 显示全部楼层
enolc 发表于 2025-1-28 13:00
这应该是编者按

所以我说啊,这编者还不如DeepSeek自己来。

聊回正题,已经有团队现在正在复现DeepSeek,是真是假过几天就知道了。
 楼主| 发表于 2025-1-28 13:08 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 13:23 来自手机 | 显示全部楼层
他们很早就有了万卡h100。h100被禁后又有h800集群。其实他们的研究如果比较谨慎的话,这个规模肯定足够了。
 楼主| 发表于 2025-1-28 13:40 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 13:59 | 显示全部楼层
本帖最后由 fyc858 于 2025-1-28 14:01 编辑

现在的游戏和驱动花亿点点功夫优化一下,说不定以前的1080显卡都能随便跑,老黄就是个卖硬件的,他巴不得你手里的东西过一年就卡,过保直接报废呢,如果你能开发一个游戏渲染引擎,画面和虚幻5差不多,但是用几年前的显卡就能跑满4K 120,那老黄就得破产咯
发表于 2025-1-28 14:01 | 显示全部楼层
Deepseek是国内比较早建立万卡集群的公司,是1万张H100(一张H100价格粗略来算3万美元)
发表于 2025-1-28 14:14 来自手机 | 显示全部楼层
2c 应用,当然要部署很多计算卡。节省算力和算力需求大,两者不矛盾
 楼主| 发表于 2025-1-28 14:18 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 14:42 | 显示全部楼层
我个人很想知道的是DS开源后是不是大公司也能用他们的方式来优化自己的模型提高训练的效率,比如原来要10万张卡的训练只需要2万张卡就能实现,如果是这样那NV确实打击很大
 楼主| 发表于 2025-1-28 15:10 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-1-28 15:13 | 显示全部楼层
RZ.zheng 发表于 2025-1-28 14:42
我个人很想知道的是DS开源后是不是大公司也能用他们的方式来优化自己的模型提高训练的效率,比如原来要10万 ...

目标是什么,如果是目标是搞一个比半年前72b性能更强的32b模型,那是可以的,其实就是R1同步开源那几个蒸馏模型。
但是目标是搞出能力在R1之上的,R1的开源帮助不大,技术文件到有可能用来少走点弯路。
发表于 2025-1-28 16:32 | 显示全部楼层
af_x_if 发表于 2025-1-28 15:13
目标是什么,如果是目标是搞一个比半年前72b性能更强的32b模型,那是可以的,其实就是R1同步开源那几个蒸 ...

因为我比较外行,我换一个简单一点的说法,比如现在一家公司要做出OPENAI或者ds这样同等能力的大模型就简单了很多,但是如果要继续提高能力,开发出更强更聪明的模型,比如真正实现通用人工智能那DS的开源没太大帮助是吗?或者说在DS开源之前要实现更强的模型需要的时间和算力并不会因为DS的开源就加快了是吗
发表于 2025-1-28 16:35 | 显示全部楼层
RZ.zheng 发表于 2025-1-28 14:42
我个人很想知道的是DS开源后是不是大公司也能用他们的方式来优化自己的模型提高训练的效率,比如原来要10万 ...

只会更早出现更nb的大模型
发表于 2025-1-28 16:35 | 显示全部楼层
enolc 发表于 2025-1-28 15:10
就算能用,卡也不会少买,因为算力毕竟多多益善,规模越大训练速度越快,自我训练的进阶也越快 ...

主要是看DS的开源对未来训练更强的AI会不会有很大的帮助,比如DS开源后同样的算力能做出更强的AI那DS的开源就老黄的打击就很大,因为老黄现在的卡溢价很高,但如果开源之后只是对现有的模型开发难度变小了,要开发更强的模型并没有太大帮助那老黄的卡依然可以高溢价卖给大科技公司,因为他们的目标肯定不是停留在现有的水平,对于投资的角度来看不是看老黄的卡卖不卖的好,而是要看他还能不能高价卖出去
发表于 2025-1-28 16:40 | 显示全部楼层
就微调下llama 3能要多少算力.....
发表于 2025-1-28 17:30 | 显示全部楼层
open ai真是丢人到姥姥家了,本来名字都open的公司,就该起到公开的启发全人类的开发者的作用,结果却拼命封锁,还掉钱眼里了,结果被一个小公司扛起了大旗,还创造性的找到了新的发展路径。
    一个搞闭源的结果还要反过来抄开源的思路。这都是什么事啊
发表于 2025-1-28 17:40 | 显示全部楼层
xjr12000 发表于 2025-1-28 17:30
open ai真是丢人到姥姥家了,本来名字都open的公司,就该起到公开的启发全人类的开发者的作用,结果却拼命 ...

早就改名叫closeAI了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-8-23 13:30 , Processed in 0.012305 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表