Leciel 发表于 2025-7-7 19:35

gartour 发表于 2025-7-7 19:26
实际上即使是现有的应用,算力都是远远不够的,只不过只有这么多可以用了。

是在“有一点用一点”这个前 ...


有这空挖旧贴,还不如认认真真地把Attention is all you need读上几遍。有了一定的认知,就知道楼主发文的内容硬伤实在太多。

Google的这篇论文基本上没什么难度,高中理科班的程度完全可以读懂,可惜大多数人就是没这个耐性静下心来读一读。互联网喂什么,自己就吃什么。

看完Attention is all you need,再看看Dao-AILab的flash attention,基本上对GPU加速有比较深刻的理解。Deepseek主要就是手搓了自己的attention集群算法,惊艳了老外。

enolc 发表于 2025-7-7 21:34

本帖最后由 enolc 于 2025-7-7 21:43 编辑

1, Attention is all you need是由8位googlescientists 在2017年共同完成的一篇论文,这篇论文介绍了一种新的深度学习架构Transformer (基于 Bahdanau 等人于 2014 年提出的注意力机制)。在你嘴里就成了“这篇论文基本上没什么难度,高中理科班的程度完全可以读懂”,你可以问问这个论坛,有多少站友能真正读过或者读懂过?更别说社会上绝大多数的普罗大众了[傻笑]

2,楼主发文的内容不是个人观点,只是拿来和大家一起讨论学习而已[傻笑]

3,2022年六月Dao-AILab发表了论文“Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness”向大家阐述了Flash Attention的优化思路和执行流程。大部分对于AI拿来就用的大众一样不会仔细学习这篇论文。

4,Deepseek 确实手搓了自己的attention集群算法,惊艳了老外。就像大部分发表在世界顶级期刊(比如Cell,Nature,Science正刊)的论文,只有惊艳了期刊编辑们和大部分审稿人才能发表。公开DS的模型确实带有宣传的成分,但也不能抹杀DS应有的成绩和对于业界的积极推动作用,所有业界AI巨头都表示了对于DS工作的肯定。

5,对于全世界大部分研究人员,科研院所,大公司R&D而言,读paper是一回事,读懂后能真正为自己所用甚至迭代和创新又是另外一回事,否则这个世界还需要那么多lab和研究人员何用?

6,其实我一直认为,所谓算力饱和是个伪命题,日益增长的巨量信息处理和硬件+能源需求不太可能在短期内达到平衡。

YsHaNg 发表于 2025-7-7 22:29

Leciel 发表于 2025-7-7 11:35
有这空挖旧贴,还不如认认真真地把Attention is all you need读上几遍。有了一定的认知,就知道楼主发文 ...

Attention is all you need以及flash attention paper我都读过 也按照Karpathy的讲解复现过 但不懂你反对那层观点是什么

enolc 发表于 2025-7-8 02:00

YsHaNg 发表于 2025-7-7 22:29
Attention is all you need以及flash attention paper我都读过 也按照Karpathy的讲解复现过 但不懂你反对 ...

站友Leciel的观点应该比较接近:DS没有宣传的那么神,没有突破性的创新 [偷笑]

Leciel 发表于 2025-7-8 10:03

YsHaNg 发表于 2025-7-7 22:29
Attention is all you need以及flash attention paper我都读过 也按照Karpathy的讲解复现过 但不懂你反对 ...

DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方式的改变,那就是欺负大多数人不去读论文了:

“1.准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法也很简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如和间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励:格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分,做了就加分。”

Attention is all you need的基础算法把奖励机制说的明明白白,好的讲师,初中生也能教懂:基础的线性代数求和(两个矢量数组点乘再求和)再归一化。基础算法不难理解,工程上的实现就是完全另外一个话题。说白了ai的理论就是线性代数,矢量,张量的来回操作,没必要神话。

happyDJ 发表于 2025-7-8 10:18

Leciel 发表于 2025-7-8 10:03
DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方 ...

楼主发的贴直接提出对底层的学习方式的改变,那就是欺负大多数人不去读论文了:
“1.准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法也很简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如和间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励:格式奖励模型强制要求模型将其思考过程置于和标签之间。没这么做就扣分,做了就加分。”
-----------------------------------------------------------------------------------------------
说句公道话,以上论述显然不是LZ说的,只是LZ引用文章里说的内容![偷笑]

happyDJ 发表于 2025-7-8 10:19

还有一个事实就是:绝大多数人都不会去读原著论文!!![傻笑]

YsHaNg 发表于 2025-7-8 16:07

Leciel 发表于 2025-7-8 02:03
DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方 ...

我们那几层在讨论现今算力发展和使用情况=。=我就看那篇报告还不错顺手给转一下

enolc 发表于 2025-7-8 22:11

Leciel 发表于 2025-7-8 10:03
DS是工程上的杰作,就深度学习的基础算法而言,就算有,也没有公开。
楼主发的贴直接提出对底层的学习方 ...

说的是没错,基本理论入门的门槛确实不高,但是要真正读懂读透甚至应用还是需要专研的
页: 1 2 3 4 5 [6]
查看完整版本: 探讨和求证deepseek背后的算力真相