找回密码
 加入我们
搜索
      
楼主: enolc

[显卡] 探讨和求证deepseek背后的算力真相

[复制链接]
发表于 2025-7-7 19:35 | 显示全部楼层
gartour 发表于 2025-7-7 19:26
实际上即使是现有的应用,算力都是远远不够的,只不过只有这么多可以用了。

是在“有一点用一点”这个前 ...


有这空挖旧贴,还不如认认真真地把Attention is all you need读上几遍。有了一定的认知,就知道楼主发文的内容硬伤实在太多。

Google的这篇论文基本上没什么难度,高中理科班的程度完全可以读懂,可惜大多数人就是没这个耐性静下心来读一读。互联网喂什么,自己就吃什么。

看完Attention is all you need,再看看Dao-AILab的flash attention,基本上对GPU加速有比较深刻的理解。Deepseek主要就是手搓了自己的attention集群算法,惊艳了老外。
 楼主| 发表于 2025-7-7 21:34 | 显示全部楼层
本帖最后由 enolc 于 2025-7-7 21:43 编辑

1, Attention is all you need是由8位google  scientists 在2017年共同完成的一篇论文,这篇论文介绍了一种新的深度学习架构Transformer (基于 Bahdanau 等人于 2014 年提出的注意力机制)。在你嘴里就成了“这篇论文基本上没什么难度,高中理科班的程度完全可以读懂”,你可以问问这个论坛,有多少站友能真正读过或者读懂过?更别说社会上绝大多数的普罗大众了

2,楼主发文的内容不是个人观点,只是拿来和大家一起讨论学习而已

3,2022年六月Dao-AILab发表了论文“Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness”向大家阐述了Flash Attention的优化思路和执行流程。大部分对于AI拿来就用的大众一样不会仔细学习这篇论文。

4,Deepseek 确实手搓了自己的attention集群算法,惊艳了老外。就像大部分发表在世界顶级期刊(比如Cell,Nature,Science正刊)的论文,只有惊艳了期刊编辑们和大部分审稿人才能发表。公开DS的模型确实带有宣传的成分,但也不能抹杀DS应有的成绩和对于业界的积极推动作用,所有业界AI巨头都表示了对于DS工作的肯定。

5,对于全世界大部分研究人员,科研院所,大公司R&D而言,读paper是一回事,读懂后能真正为自己所用甚至迭代和创新又是另外一回事,否则这个世界还需要那么多lab和研究人员何用?

6,其实我一直认为,所谓算力饱和是个伪命题,日益增长的巨量信息处理和硬件+能源需求不太可能在短期内达到平衡。
发表于 2025-7-7 22:29 来自手机 | 显示全部楼层
Leciel 发表于 2025-7-7 11:35
有这空挖旧贴,还不如认认真真地把Attention is all you need读上几遍。有了一定的认知,就知道楼主发文 ...

Attention is all you need以及flash attention paper我都读过 也按照Karpathy的讲解复现过 但不懂你反对那层观点是什么
 楼主| 发表于 2025-7-8 02:00 | 显示全部楼层
YsHaNg 发表于 2025-7-7 22:29
Attention is all you need以及flash attention paper我都读过 也按照Karpathy的讲解复现过 但不懂你反对 ...

站友Leciel的观点应该比较接近:DS没有宣传的那么神,没有突破性的创新
发表于 2025-7-8 10:03 | 显示全部楼层
YsHaNg 发表于 2025-7-7 22:29
Attention is all you need以及flash attention paper我都读过 也按照Karpathy的讲解复现过 但不懂你反对 ...

DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方式的改变,那就是欺负大多数人不去读论文了:

“1.准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法也很简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如和间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励:格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分,做了就加分。”

Attention is all you need的基础算法把奖励机制说的明明白白,好的讲师,初中生也能教懂:基础的线性代数求和(两个矢量数组点乘再求和)再归一化。基础算法不难理解,工程上的实现就是完全另外一个话题。说白了ai的理论就是线性代数,矢量,张量的来回操作,没必要神话。
发表于 2025-7-8 10:18 | 显示全部楼层
Leciel 发表于 2025-7-8 10:03
DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方 ...

楼主发的贴直接提出对底层的学习方式的改变,那就是欺负大多数人不去读论文了:
“1.准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法也很简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如和间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励:格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分,做了就加分。”
-----------------------------------------------------------------------------------------------
说句公道话,以上论述显然不是LZ说的,只是LZ引用文章里说的内容!
发表于 2025-7-8 10:19 | 显示全部楼层
还有一个事实就是:绝大多数人都不会去读原著论文!!!
发表于 2025-7-8 16:07 来自手机 | 显示全部楼层
Leciel 发表于 2025-7-8 02:03
DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方 ...

我们那几层在讨论现今算力发展和使用情况=。=  我就看那篇报告还不错顺手给转一下
 楼主| 发表于 2025-7-8 22:11 | 显示全部楼层
Leciel 发表于 2025-7-8 10:03
DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方 ...

说的是没错,基本理论入门的门槛确实不高,但是要真正读懂读透甚至应用还是需要专研的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-7-17 00:51 , Processed in 0.009629 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表