探讨和求证deepseek背后的算力真相 - 第6页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

Leciel 发表于 2025-7-7 19:35

gartour 发表于 2025-7-7 19:26
实际上即使是现有的应用，算力都是远远不够的，只不过只有这么多可以用了。

是在“有一点用一点”这个前 ...

有这空挖旧贴，还不如认认真真地把Attention is all you need读上几遍。有了一定的认知，就知道楼主发文的内容硬伤实在太多。

Google的这篇论文基本上没什么难度，高中理科班的程度完全可以读懂，可惜大多数人就是没这个耐性静下心来读一读。互联网喂什么，自己就吃什么。

看完Attention is all you need，再看看Dao-AILab的flash attention，基本上对GPU加速有比较深刻的理解。Deepseek主要就是手搓了自己的attention集群算法，惊艳了老外。

enolc 发表于 2025-7-7 21:34

本帖最后由 enolc 于 2025-7-7 21:43 编辑

1， Attention is all you need是由8位googlescientists 在2017年共同完成的一篇论文，这篇论文介绍了一种新的深度学习架构Transformer （基于 Bahdanau 等人于 2014 年提出的注意力机制）。在你嘴里就成了“这篇论文基本上没什么难度，高中理科班的程度完全可以读懂”，你可以问问这个论坛，有多少站友能真正读过或者读懂过？更别说社会上绝大多数的普罗大众了[傻笑]

2，楼主发文的内容不是个人观点，只是拿来和大家一起讨论学习而已[傻笑]

3，2022年六月Dao-AILab发表了论文“Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness”向大家阐述了Flash Attention的优化思路和执行流程。大部分对于AI拿来就用的大众一样不会仔细学习这篇论文。

4，Deepseek 确实手搓了自己的attention集群算法，惊艳了老外。就像大部分发表在世界顶级期刊（比如Cell，Nature，Science正刊）的论文，只有惊艳了期刊编辑们和大部分审稿人才能发表。公开DS的模型确实带有宣传的成分，但也不能抹杀DS应有的成绩和对于业界的积极推动作用，所有业界AI巨头都表示了对于DS工作的肯定。

5，对于全世界大部分研究人员，科研院所，大公司R&D而言，读paper是一回事，读懂后能真正为自己所用甚至迭代和创新又是另外一回事，否则这个世界还需要那么多lab和研究人员何用？

6，其实我一直认为，所谓算力饱和是个伪命题，日益增长的巨量信息处理和硬件+能源需求不太可能在短期内达到平衡。

YsHaNg 发表于 2025-7-7 22:29

Leciel 发表于 2025-7-7 11:35
有这空挖旧贴，还不如认认真真地把Attention is all you need读上几遍。有了一定的认知，就知道楼主发文 ...

Attention is all you need以及flash attention paper我都读过也按照Karpathy的讲解复现过但不懂你反对那层观点是什么

enolc 发表于 2025-7-8 02:00

YsHaNg 发表于 2025-7-7 22:29
Attention is all you need以及flash attention paper我都读过也按照Karpathy的讲解复现过但不懂你反对 ...

站友Leciel的观点应该比较接近：DS没有宣传的那么神，没有突破性的创新 [偷笑]

Leciel 发表于 2025-7-8 10:03

YsHaNg 发表于 2025-7-7 22:29
Attention is all you need以及flash attention paper我都读过也按照Karpathy的讲解复现过但不懂你反对 ...

DS是工程上的杰作，就深度学习的基础算法而言，就算有，也没有公开。
楼主发的贴直接提出对底层的学习方式的改变，那就是欺负大多数人不去读论文了：

“1.准确性奖励：准确性奖励模型评估响应是否正确。对了就加分，错了扣分。评价方法也很简单：例如，在具有确定性结果的数学问题中，模型需要以指定格式（如和间）提供最终答案；对于编程问题，可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励：格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分，做了就加分。”

Attention is all you need的基础算法把奖励机制说的明明白白，好的讲师，初中生也能教懂：基础的线性代数求和（两个矢量数组点乘再求和）再归一化。基础算法不难理解，工程上的实现就是完全另外一个话题。说白了ai的理论就是线性代数，矢量，张量的来回操作，没必要神话。

happyDJ 发表于 2025-7-8 10:18

Leciel 发表于 2025-7-8 10:03
DS是工程上的杰作，就深度学习的基础算法而言，就算有，也没有公开。
楼主发的贴直接提出对底层的学习方 ...

楼主发的贴直接提出对底层的学习方式的改变，那就是欺负大多数人不去读论文了：
“1.准确性奖励：准确性奖励模型评估响应是否正确。对了就加分，错了扣分。评价方法也很简单：例如，在具有确定性结果的数学问题中，模型需要以指定格式（如和间）提供最终答案；对于编程问题，可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励：格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分，做了就加分。”
-----------------------------------------------------------------------------------------------
说句公道话，以上论述显然不是LZ说的，只是LZ引用文章里说的内容！[偷笑]

happyDJ 发表于 2025-7-8 10:19

还有一个事实就是：绝大多数人都不会去读原著论文！！！[傻笑]

YsHaNg 发表于 2025-7-8 16:07

Leciel 发表于 2025-7-8 02:03
DS是工程上的杰作，就深度学习的基础算法而言，就算有，也没有公开。
楼主发的贴直接提出对底层的学习方 ...

我们那几层在讨论现今算力发展和使用情况=。=我就看那篇报告还不错顺手给转一下

enolc 发表于 2025-7-8 22:11

Leciel 发表于 2025-7-8 10:03
DS是工程上的杰作，就深度学习的基础算法而言，就算有，也没有公开。
楼主发的贴直接提出对底层的学习方 ...

说的是没错，基本理论入门的门槛确实不高，但是要真正读懂读透甚至应用还是需要专研的

页: 1 2 3 4 5 [6]

Chiphell - 分享与交流用户体验's Archiver