找回密码
 加入我们
搜索
      
楼主: enolc

[显卡] 探讨和求证deepseek背后的算力真相

[复制链接]
发表于 2025-7-7 19:35 | 显示全部楼层
gartour 发表于 2025-7-7 19:26
实际上即使是现有的应用,算力都是远远不够的,只不过只有这么多可以用了。

是在“有一点用一点”这个前 ...


有这空挖旧贴,还不如认认真真地把Attention is all you need读上几遍。有了一定的认知,就知道楼主发文的内容硬伤实在太多。

Google的这篇论文基本上没什么难度,高中理科班的程度完全可以读懂,可惜大多数人就是没这个耐性静下心来读一读。互联网喂什么,自己就吃什么。

看完Attention is all you need,再看看Dao-AILab的flash attention,基本上对GPU加速有比较深刻的理解。Deepseek主要就是手搓了自己的attention集群算法,惊艳了老外。
 楼主| 发表于 2025-7-7 21:34 | 显示全部楼层
本帖最后由 enolc 于 2025-7-7 21:43 编辑

1, Attention is all you need是由8位google  scientists 在2017年共同完成的一篇论文,这篇论文介绍了一种新的深度学习架构Transformer (基于 Bahdanau 等人于 2014 年提出的注意力机制)。在你嘴里就成了“这篇论文基本上没什么难度,高中理科班的程度完全可以读懂”,你可以问问这个论坛,有多少站友能真正读过或者读懂过?更别说社会上绝大多数的普罗大众了

2,楼主发文的内容不是个人观点,只是拿来和大家一起讨论学习而已

3,2022年六月Dao-AILab发表了论文“Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness”向大家阐述了Flash Attention的优化思路和执行流程。大部分对于AI拿来就用的大众一样不会仔细学习这篇论文。

4,Deepseek 确实手搓了自己的attention集群算法,惊艳了老外。就像大部分发表在世界顶级期刊(比如Cell,Nature,Science正刊)的论文,只有惊艳了期刊编辑们和大部分审稿人才能发表。公开DS的模型确实带有宣传的成分,但也不能抹杀DS应有的成绩和对于业界的积极推动作用,所有业界AI巨头都表示了对于DS工作的肯定。

5,对于全世界大部分研究人员,科研院所,大公司R&D而言,读paper是一回事,读懂后能真正为自己所用甚至迭代和创新又是另外一回事,否则这个世界还需要那么多lab和研究人员何用?

6,其实我一直认为,所谓算力饱和是个伪命题,日益增长的巨量信息处理和硬件+能源需求不太可能在短期内达到平衡。
发表于 2025-7-7 22:29 来自手机 | 显示全部楼层
Leciel 发表于 2025-7-7 11:35
有这空挖旧贴,还不如认认真真地把Attention is all you need读上几遍。有了一定的认知,就知道楼主发文 ...

Attention is all you need以及flash attention paper我都读过 也按照Karpathy的讲解复现过 但不懂你反对那层观点是什么
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-7-7 23:19 , Processed in 0.007385 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表