找回密码
 加入我们
搜索
      
查看: 21037|回复: 146

[显卡] 探讨和求证deepseek背后的算力真相

[复制链接]
发表于 2025-1-28 12:28 | 显示全部楼层 |阅读模式
本帖最后由 enolc 于 2025-1-30 00:34 编辑

我只是很好奇deepseek掀起的这一波AI界的史诗级革命,和作为目前AI硬件领头羊NV未来的命运

一下内容均源自于网络:
------------------------------
近日,美国人工智能数据基础公司Scale AI创始人兼首席执行官Alexandr Wang在接受CNBC采访时称,DeepSeek拥有大约五万块英伟达H100芯片,但因美国出口管制措施,他们不能公开谈论。

DeepSeek于2024年12月26日(美国时间12月25日)当天发布了一款“震撼性的模型”——DeepSeek-V3,随后又于1月20日推出了一款专注于推理的强大AI模型DeepSeek-R1,对标OpenAI的o1模型。DeepSeek利用较少且不够先进的芯片训练出了媲美Chat**的模型。DeepSeek在一份技术报告中称,它使用超过2000个英伟达H800芯片集群来训练其参数为6710亿的V3模型,而Meta训练参数量4050亿的Llama 3,用了16384块更强的H100显卡,花了54天。Deepseek的训练效率为Meta的11倍。

-------------------------------------------------------------------------------------------------------------------------------------------------
以下是关于DeepSeek新模型的一些事实:(来源于网络)
DeepSeek-R1 Zero选择了一条前所未有的路径“纯”强化学习路径,它完全抛开了预设的思维链模板(Chain of Thought)和监督式微调(SFT),仅依靠简单的奖惩信号来优化模型行为。

这就像让一个天才儿童在没有任何范例和指导的情况下,纯粹通过不断尝试和获得反馈来学习解题。

DeepSeek-R1 Zero 有的只是一套最简单的奖励系统,来激发AI的推理能力。

这个规则就两条:

1.准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法也很简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如和间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励:格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分,做了就加分。

为了准确观察模型在强化学习(RL)过程中的自然进展,DeepSeek甚至有意将系统提示词仅约束限制在这种结构格式上,来避免任何内容特定的偏见——例如强制让模型进行反思性推理或推广特定的问题解决策略。

所以DeepSeek-R1的发布让圈内人的焦点都投向了纯强化学习方法,因为它完全可以说得上是打开了AI 进化的一条新路径。

R1-Zero——这个完全通过强化学习训练出来的AI模型,展现出了令人惊讶的通用推理能力。它不仅在数学竞赛中取得了惊人成绩。

更重要的是,R1-Zero不仅是在模仿思考,而是真正发展出了某种形式的推理能力。

这个发现可能会改变我们对机器学习的认识:传统的AI训练方法可能一直在重复一个根本性的错误,我们太专注于让AI模仿人类的思维方式了,业界需要重新思考监督学习在AI发展中的角色。通过纯粹的强化学习,AI系统似乎能够发展出更原生的问题解决能力,而不是被限制在预设的解决方案框架内。

虽然R1-Zero在输出可读性上存在明显缺陷,但这个"缺陷"本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法,却难以用常规语言解释一样。这提示我们:真正的通用人工智能可能需要完全不同于人类的认知方式。

这才是真正的强化学习。就像著名教育家皮亚杰的理论:真正的理解来自于主动建构,而不是被动接受
 楼主| 发表于 2025-1-28 12:34 | 显示全部楼层
2000个英伟达H800芯片集群训练V3,我觉得真的很牛啊!同时也很怀疑deepseek能拥有50000块H100的说法
发表于 2025-1-28 12:34 | 显示全部楼层
这写的还不如让DeepSeek自己来,大模型的幻觉都没这么严重。
 楼主| 发表于 2025-1-28 12:35 | 显示全部楼层
英伟达GEAR Lab项目负责人Jim Fan在推特中也提到了,DeepSeek-R1用通过硬编码规则计算出的真实奖励,而避免使用任何 RL(纯强化学习) 容易破解的学习奖励模型。这使得模型产生了自我反思与探索行为的涌现。

因为这些极其重要的发现都被DeepSeek-R1完全开源,Jim Fan 甚至认为,这本来是OpenAI应该做的事。
 楼主| 发表于 2025-1-28 12:37 | 显示全部楼层
男中音钢琴家 发表于 2025-1-28 12:34
这写的还不如让DeepSeek自己来,大模型的幻觉都没这么严重。

以上内容源自于DeepSeek-R1论文
 楼主| 发表于 2025-1-28 12:41 | 显示全部楼层
男中音钢琴家 发表于 2025-1-28 12:34
这写的还不如让DeepSeek自己来,大模型的幻觉都没这么严重。

输入“求证deepseek背后的算力真相”

deepseek输出:
关于DeepSeek的算力,目前公开信息有限,但可以从以下几个方面推测:

    模型规模:DeepSeek-V3作为大模型,通常需要强大的算力支持,尤其是训练阶段。模型的参数量越大,对算力的需求越高。

    训练基础设施:大模型的训练通常依赖高性能计算集群,配备大量GPU或TPU,并进行分布式训练以加速计算。

    推理需求:推理阶段对算力的要求相对较低,但仍需足够的计算资源以保证响应速度和并发处理能力。

    优化技术:通过模型压缩、量化和分布式计算等技术,DeepSeek可能在一定程度上降低了对算力的需求。

    云服务支持:DeepSeek可能依托云平台提供弹性算力,按需扩展资源。

综上,DeepSeek的算力需求取决于模型规模和应用场景,虽然具体细节未公开,但可以推测其背后有强大的算力支撑。如需更准确的信息,建议参考官方发布的技术文档或联系其团队。
 楼主| 发表于 2025-1-28 12:48 | 显示全部楼层
网上有人提出的异议

不否认DeepSeek-R1论文中提出的“大模型利用纯RL(强化学习)方法引导其自主学习和反思推理”这一发现是个革命性的创新。这个创新不再使用美国模型训练AI推理能力的传统方法,即通过在SFT(监督微调)加入大量的思维链(COT)范例,用例证和复杂的如过程奖励模型(PRM)之类的复杂神经网络奖励模型,来让模型学会用思维链思考。这个创新选择了一条前所未有的路径-强化学习路径,它完全抛开了预设的思维链模板(Chain of Thought)和监督式微调(SFT),仅依靠简单的奖惩信号来优化模型行为,也就是通过一套最简单的奖励系统,即准确性奖励(对了加分,错了扣分)和格式奖励(没这么做就扣分,做了就加分)来激发AI的推理能力。说白了就像让一个天才儿童在没有任何范例和指导的情况下,纯粹通过不断尝试和获得反馈来学习解题。同时为了避免任何内容特定的偏见,强制让模型进行反思性推理或推广特定的问题解决策略。靠着这么一个简单的规则,让AI在GRPO(Group Relative Policy Optimization)的规则下自我采样、比较、自我提升。因为DeepSeek-R1采用的这种输入问题 → 模型生成多个答案 → 规则系统评分 → GRPO计算相对优势 → 更新模型的流程来训练,大大提升了训练效率,大大降低了资源消耗,因为它省去了传统美国模型的SFT和复杂的奖惩模型。说白了,这种训练流程让模型可以在非常“原始”的方法下以“顿悟”的方式学会思考。问题是,这种强化学习的AI进化的新路径虽然高效,但是大量AI专家都一至认为它绝不可能把训练效率提高50倍!推理效率更绝无可能超过50倍!所以要么这些专家都错了,要么论文所说的560万美元的训练成本是在造假,二者必居其一!另外,这种新方法和美国模型采用的传统训练方法相比,在输出可读性上存在明显缺陷,所以它能否能完全取代美国模型的传统方法还真不一定!
发表于 2025-1-28 12:59 | 显示全部楼层
enolc 发表于 2025-1-28 12:37
以上内容源自于DeepSeek-R1论文
这才是真正的强化学习。就像著名教育家皮亚杰的理论:真正的理解来自于主动建构,而不是被动接受。

DeepSeek-R1论文里要是真出现了这句话,我建议DeepSeek-R1的研发团队全体辞职回老家卖红薯。
发表于 2025-1-28 12:59 | 显示全部楼层
技术报告可能会选择性的描述事实,但是不太可能说假话,因为没有意义,所以说是 H800*2000 训练的,那就是 H800*2000 训练的
 楼主| 发表于 2025-1-28 13:00 | 显示全部楼层
男中音钢琴家 发表于 2025-1-28 12:59
DeepSeek-R1论文里要是真出现了这句话,我建议DeepSeek-R1的研发团队全体辞职回老家卖红薯。 ...

这应该是编者按
 楼主| 发表于 2025-1-28 13:00 | 显示全部楼层
neavo 发表于 2025-1-28 12:59
技术报告可能会选择性的描述事实,但是不太可能说假话,因为没有意义,所以说是 H800*2000 训练的,那就是  ...

这点我也绝对相信
发表于 2025-1-28 13:01 来自手机 | 显示全部楼层
借我点显卡,我来帮你复现后告诉你哈
 楼主| 发表于 2025-1-28 13:02 | 显示全部楼层
我輩樹である 发表于 2025-1-28 13:01
借我点显卡,我来帮你复现后告诉你哈

需要多少?给个数哈
发表于 2025-1-28 13:06 | 显示全部楼层
enolc 发表于 2025-1-28 13:00
这应该是编者按

所以我说啊,这编者还不如DeepSeek自己来。

聊回正题,已经有团队现在正在复现DeepSeek,是真是假过几天就知道了。
 楼主| 发表于 2025-1-28 13:08 | 显示全部楼层
本帖最后由 enolc 于 2025-1-28 13:11 编辑
男中音钢琴家 发表于 2025-1-28 13:06
所以我说啊,这编者还不如DeepSeek自己来。

聊回正题,已经有团队现在正在复现DeepSeek,是真是假过几天 ...


我斗胆预测一下结果,技术层面应该没有问题(毕竟是开源项目),算力层面可能会有点出入 但是无论如何,我会为deepseek团队致以最高的敬意,他们的工作开拓了AI领域的新时代,同时也大大加速了全人类AI领域的研究进程!
发表于 2025-1-28 13:23 来自手机 | 显示全部楼层
他们很早就有了万卡h100。h100被禁后又有h800集群。其实他们的研究如果比较谨慎的话,这个规模肯定足够了。
 楼主| 发表于 2025-1-28 13:40 | 显示全部楼层
一日 发表于 2025-1-28 13:23
他们很早就有了万卡h100。h100被禁后又有h800集群。其实他们的研究如果比较谨慎的话,这个规模肯定足够了。 ...


其实母公司从2010年以后就开始布局了,一开始并不是搞AI,搞的预测金融市场走势的量化模型
发表于 2025-1-28 13:59 | 显示全部楼层
本帖最后由 fyc858 于 2025-1-28 14:01 编辑

现在的游戏和驱动花亿点点功夫优化一下,说不定以前的1080显卡都能随便跑,老黄就是个卖硬件的,他巴不得你手里的东西过一年就卡,过保直接报废呢,如果你能开发一个游戏渲染引擎,画面和虚幻5差不多,但是用几年前的显卡就能跑满4K 120,那老黄就得破产咯
发表于 2025-1-28 14:01 | 显示全部楼层
Deepseek是国内比较早建立万卡集群的公司,是1万张H100(一张H100价格粗略来算3万美元)
发表于 2025-1-28 14:14 来自手机 | 显示全部楼层
2c 应用,当然要部署很多计算卡。节省算力和算力需求大,两者不矛盾
 楼主| 发表于 2025-1-28 14:18 | 显示全部楼层
fyc858 发表于 2025-1-28 13:59
现在的游戏和驱动花亿点点功夫优化一下,说不定以前的1080显卡都能随便跑,老黄就是个卖硬件的,他巴不得你 ...

这几天老黄寝食难安了
发表于 2025-1-28 14:42 | 显示全部楼层
我个人很想知道的是DS开源后是不是大公司也能用他们的方式来优化自己的模型提高训练的效率,比如原来要10万张卡的训练只需要2万张卡就能实现,如果是这样那NV确实打击很大
 楼主| 发表于 2025-1-28 15:10 | 显示全部楼层
RZ.zheng 发表于 2025-1-28 14:42
我个人很想知道的是DS开源后是不是大公司也能用他们的方式来优化自己的模型提高训练的效率,比如原来要10万 ...

就算能用,卡也不会少买,因为算力毕竟多多益善,规模越大训练速度越快,自我训练的进阶也越快
发表于 2025-1-28 15:13 | 显示全部楼层
RZ.zheng 发表于 2025-1-28 14:42
我个人很想知道的是DS开源后是不是大公司也能用他们的方式来优化自己的模型提高训练的效率,比如原来要10万 ...

目标是什么,如果是目标是搞一个比半年前72b性能更强的32b模型,那是可以的,其实就是R1同步开源那几个蒸馏模型。
但是目标是搞出能力在R1之上的,R1的开源帮助不大,技术文件到有可能用来少走点弯路。
发表于 2025-1-28 16:32 | 显示全部楼层
af_x_if 发表于 2025-1-28 15:13
目标是什么,如果是目标是搞一个比半年前72b性能更强的32b模型,那是可以的,其实就是R1同步开源那几个蒸 ...

因为我比较外行,我换一个简单一点的说法,比如现在一家公司要做出OPENAI或者ds这样同等能力的大模型就简单了很多,但是如果要继续提高能力,开发出更强更聪明的模型,比如真正实现通用人工智能那DS的开源没太大帮助是吗?或者说在DS开源之前要实现更强的模型需要的时间和算力并不会因为DS的开源就加快了是吗
发表于 2025-1-28 16:35 | 显示全部楼层
RZ.zheng 发表于 2025-1-28 14:42
我个人很想知道的是DS开源后是不是大公司也能用他们的方式来优化自己的模型提高训练的效率,比如原来要10万 ...

只会更早出现更nb的大模型
发表于 2025-1-28 16:35 | 显示全部楼层
enolc 发表于 2025-1-28 15:10
就算能用,卡也不会少买,因为算力毕竟多多益善,规模越大训练速度越快,自我训练的进阶也越快 ...

主要是看DS的开源对未来训练更强的AI会不会有很大的帮助,比如DS开源后同样的算力能做出更强的AI那DS的开源就老黄的打击就很大,因为老黄现在的卡溢价很高,但如果开源之后只是对现有的模型开发难度变小了,要开发更强的模型并没有太大帮助那老黄的卡依然可以高溢价卖给大科技公司,因为他们的目标肯定不是停留在现有的水平,对于投资的角度来看不是看老黄的卡卖不卖的好,而是要看他还能不能高价卖出去
发表于 2025-1-28 16:40 | 显示全部楼层
就微调下llama 3能要多少算力.....
发表于 2025-1-28 17:30 | 显示全部楼层
open ai真是丢人到姥姥家了,本来名字都open的公司,就该起到公开的启发全人类的开发者的作用,结果却拼命封锁,还掉钱眼里了,结果被一个小公司扛起了大旗,还创造性的找到了新的发展路径。
    一个搞闭源的结果还要反过来抄开源的思路。这都是什么事啊
发表于 2025-1-28 17:40 | 显示全部楼层
xjr12000 发表于 2025-1-28 17:30
open ai真是丢人到姥姥家了,本来名字都open的公司,就该起到公开的启发全人类的开发者的作用,结果却拼命 ...

早就改名叫closeAI了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 16:27 , Processed in 0.015741 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表