AMD兴奋了

netjunegg · 发表于 2025-2-1 01:09

gartour 发表于 2025-1-31 16:53
是的。但不管程序员的水平高低，汇编的迁移成本始终是高于是cuda的。

所以ds并不是打破了cuda的护城河， ...

我感觉最关键的是, 跳过cuda性能可以翻几倍, 说明cuda包袱挺厚啊, 比虚拟机的性能损耗还厉害

cuda的设计或者实现是不是不太行? 该有一个新的东西取代它了

netjunegg · 发表于 2025-2-1 01:15

xks07 发表于 2025-1-31 21:35
主要是被openai带进坑了
因为它的大模型最先进。行业领头者。
后面都是追赶它的思路。

现在硅谷的程序员可能真的太滋润了, 没人愿意接触汇编这类底层的东西了

gartour · 发表于 2025-2-1 01:58

netjunegg 发表于 2025-2-1 01:09
我感觉最关键的是, 跳过cuda性能可以翻几倍, 说明cuda包袱挺厚啊, 比虚拟机的性能损耗还厉害

cuda的设计 ...

某些计算密集场景汇编带来几倍提升有可能的，比如视频编码器，x264， x265都是深度汇编优化的。。。顺便，对硅谷程序员不碰汇编这类低级语言的说法持保留态度。

gartour · 发表于 2025-2-1 02:03

xks07 发表于 2025-1-31 21:35
主要是被openai带进坑了
因为它的大模型最先进。行业领头者。
后面都是追赶它的思路。

改进效率和堆算力并不互斥。

算力饥渴本身就会对效率改进有很强驱动力。

另外，禁不住的，只是提高了进货成本而已。4090你都能买到，有钞能力的那些烧钱公司手段只会更多。

赫敏 · 发表于 2025-2-1 02:11

xks07 发表于 2025-1-31 06:26
不，对于头部公司来说，比如苹果meta他们有的是钱。缺的是思路和路线。ds发酵后到现在苹果和meta股价是大 ...

挺好的啊，各种废物aipc终于盼来了希望

be86658 · 发表于 2025-2-1 08:47

太厉害了快去买吧

gerbigo · 发表于 2025-2-1 11:32

这里是拿卡做推理用的，不是用于ai训练，急啥。推理就算完整的ds模型大概一个小型服务器加4到8张卡就够了，和训练不是一个数量级。

CopperBean · 发表于 2025-2-1 12:07

netjunegg 发表于 2025-2-1 01:09
我感觉最关键的是, 跳过cuda性能可以翻几倍, 说明cuda包袱挺厚啊, 比虚拟机的性能损耗还厉害

cuda的设计 ...

cuda必然损失很大的，我是一直这么觉得的，很多搞ai不搞这些底层的也不奇怪，我接触的互联网搞ai算法的大多瞧不起工程级别的事情，眼高手底，幻方因为搞量化，比较注重工程实现和硬件效率，不是互联网搞出来也不意外。

122333 · 发表于 2025-2-2 01:08

提示: 作者被禁止或删除内容自动屏蔽

账号		自动登录	找回密码
密码			加入我们

122333 122333 当前离线积分 933	发表于 2025-2-2 01:08 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
122333 122333 当前离线积分 933
	回复举报

[CPU] AMD兴奋了