是的。但不管程序员的水平高低,汇编的迁移成本始终是高于是cuda的。
所以ds并不是打破了cuda的护城河, ...
我感觉最关键的是, 跳过cuda性能可以翻几倍, 说明cuda包袱挺厚啊, 比虚拟机的性能损耗还厉害
cuda的设计或者实现是不是不太行? 该有一个新的东西取代它了 xks07 发表于 2025-1-31 21:35
主要是被openai带进坑了
因为它的大模型最先进。行业领头者。
后面都是追赶它的思路。
现在硅谷的程序员可能真的太滋润了, 没人愿意接触汇编这类底层的东西了 netjunegg 发表于 2025-2-1 01:09
我感觉最关键的是, 跳过cuda性能可以翻几倍, 说明cuda包袱挺厚啊, 比虚拟机的性能损耗还厉害
cuda的设计 ...
某些计算密集场景汇编带来几倍提升有可能的,比如视频编码器,x264, x265都是深度汇编优化的。。。顺便,对硅谷程序员不碰汇编这类低级语言的说法持保留态度。 xks07 发表于 2025-1-31 21:35
主要是被openai带进坑了
因为它的大模型最先进。行业领头者。
后面都是追赶它的思路。
改进效率和堆算力并不互斥。
算力饥渴本身就会对效率改进有很强驱动力。
另外,禁不住的,只是提高了进货成本而已。4090你都能买到,有钞能力的那些烧钱公司手段只会更多。 xks07 发表于 2025-1-31 06:26
不,对于头部公司来说,比如苹果meta他们有的是钱。缺的是思路和路线。ds发酵后到现在苹果和meta股价是大 ...
挺好的啊,各种废物aipc终于盼来了希望 太厉害了 快去买吧 这里是拿卡做推理用的,不是用于ai训练,急啥。推理就算完整的ds模型大概一个小型服务器加4到8张卡就够了,和训练不是一个数量级。 netjunegg 发表于 2025-2-1 01:09
我感觉最关键的是, 跳过cuda性能可以翻几倍, 说明cuda包袱挺厚啊, 比虚拟机的性能损耗还厉害
cuda的设计 ...
cuda必然损失很大的,我是一直这么觉得的,很多搞ai不搞这些底层的也不奇怪,我接触的互联网搞ai算法的大多瞧不起工程级别的事情,眼高手底,幻方因为搞量化,比较注重工程实现和硬件效率,不是互联网搞出来也不意外。
页:
1
[2]