九天御风
发表于 2024-2-18 11:16
显卡有好几千上万个流处理器,CPU只有十几个核心。人海战术还是有用的
jiaxu1006
发表于 2024-2-18 11:19
BallanceHZ
发表于 2024-2-18 11:23
本帖最后由 BallanceHZ 于 2024-2-18 11:24 编辑
jiaxu1006 发表于 2024-2-18 11:19
那个是集成在gpu里面的,跟cpu有啥关系……你想想啥都集成需要多少片asic
intel和AMD八百年前就自称自己消费级芯片为SOC了,本来也一堆都有核显GPU,谁跟你CPU啊
https://picx.zhimg.com/v2-b07eb666627b45b0de94ab6bbf14c59e_720w.jpg?source=172ae18b
M1集成asic和intel核显集成asic没有一毛钱区别,也不知道为啥就M1一直被挑出来说
pooChai
发表于 2024-2-18 11:26
本帖最后由 pooChai 于 2024-2-18 11:41 编辑
gemm可不适合cpu干,专用硬件都是一个cycle计算一个cube,cpu就像小学生一样一个数一个数的算,这只是一个方面,另一个方面是内存带宽,gpu访问显存的带宽比cpu访问内存带宽高了数倍,当然现在最新款的cpu也集成有专用的张量计算单元,就像集成显卡一样不管你用不用的上都要为这部分晶体管买单,那就意味着它为了照顾大多数人的钱包不可能让你掏太多冤枉钱,只能提供很基础的张量算力,目的是节省能耗
xhradioli
发表于 2024-2-18 11:26
本帖最后由 xhradioli 于 2024-2-18 11:34 编辑
nApoleon 发表于 2024-2-17 22:45
图形软件里除了这个"去杂色"其它所有的特效可都是CPU为主在干的,那你觉得是CPU干不了这个呢,还是干不好这 ...
图像处理软件,如果不限于lightroom,那么photoshop里面有相当一部分特效都是可以用GPU加速的。什么去杂色、高斯模糊之类的先不说,光是平滑缩放就有非常明显的加速效果。从6.0、7.0、CS系列、CC系列一路用过来的人一定有体会。
photoshop从2012年的CS6才开始加入GPU加速。以前不支持GPU加速的时候,如果做的图像尺寸大一点(几千×几千甚至上万的分辨率,做大尺寸的喷绘海报很常见),图层多一点,透视变形、图层移动、预览缩放做不到平滑、实时,很多时候要等。这些缩放运算本质上也是矩阵变换,靠CPU算很慢,就算是当时算高配的机器也不够。如果要说优化不够才慢,那过去十几个版本该优化都优化过了,再优化也就那样了。
有了GPU加速之后,只要不爆显存,大多数情况都能做到平滑缩放,CPU、GPU的负荷都不算高。跟以前的区别就在于,不同特点的运算、算法分别交给了各有所长的硬件去运算,这样效率才会提高。而且photoshop的GPU加速并不一定需要非常高端的显卡,加速效果也不一定跟显卡性能成正比,GTX950这样的都够用,甚至只要核显就有明显效果。
如果是以矢量图为主的“图形设计”软件,比如illustrator,那加入GPU加速就更加顺理成章。
加入GPU加速的也不止adobe系列这种常见的图形图像软件,天文影像处理领域著名的PixInsight也支持CUDA加速(以及基于CUDA的神经网络运算),运算加速效果也是很明显的。
jiaxu1006
发表于 2024-2-18 11:26
BallanceHZ
发表于 2024-2-18 11:27
jiaxu1006 发表于 2024-2-18 11:26
但是咱说的是cpu啊……而且你想想你处理视频流一片asic,剪片子得来一片吧,办公处理数据库啥的得来一片 ...
M1本身也就硬解硬编用asic而已,你真以为他纯CPU性能和3D渲染靠“专用加速”?[偷笑]
jiaxu1006
发表于 2024-2-18 11:28
jiaxu1006
发表于 2024-2-18 11:30
BallanceHZ
发表于 2024-2-18 11:31
jiaxu1006 发表于 2024-2-18 11:30
我说按照那要求啥都想让asic干可不就得这样么……
m1一跑asic不支持的应用不是立马就跟吹的不一样了么 ...
哪有啥不一样,现在M3M装PD虚拟机跑WOA的CPUZ ARM版都能单核970分了,还是你觉得苹果给一个没有macos版的软件也专门做了加速电路[偷笑]
ssl0008
发表于 2024-2-18 11:34
nApoleon 发表于 2024-2-18 07:36
真要这样的话就应该CPU+GPU一同出力,效率最大化,不然很明显就是开后门,毕竟CPU闲着也是闲着,况且CPU也不 ...
试过,cpu会拖后腿,比纯gpu慢多了。神经网络中间会产生大量feature map数据,这些数据吃显存带宽,h800的hbm数量级是2000GB/s,4090的ddr数量级是1000GB/s,纯cpu的话走ddr5是100GB/s,cpu+gpu走pcie通道是100GB/s。想法挺好,但cpu比gpu弱太多了
nApoleon
发表于 2024-2-18 11:43
ssl0008 发表于 2024-2-18 11:34
试过,cpu会拖后腿,比纯gpu慢多了。神经网络中间会产生大量feature map数据,这些数据吃显存带宽,h800 ...
原来如此...
gladiator
发表于 2024-2-18 13:25
nApoleon 发表于 2024-2-18 09:09
明白了…
果子那个路子直接全推翻了重新搞确实软件开发那边也好弄,几乎是固定配置针对开发,win x86这边各种千奇百怪的配置,还有各种跨时代的搭配[偷笑]
filk
发表于 2024-2-18 13:33
一个是通用计算,一个是并行计算[偷笑]
dcx_310
发表于 2024-2-18 13:37
cuixiang 发表于 2024-2-17 23:31
就像老板配秘书,
有些秘书出差能力强,
干活也能干,但。。。
能干和“能干”差别可大得去了
weindy
发表于 2024-2-18 13:39
轮大不靠生产力吃饭正常[傻笑]业界都只奉行一句话,时间就是金钱我的朋友[狂笑]能加快赚钱效率的加速行为越多越好[可爱]
狮子歌歌
发表于 2024-2-18 15:10
M1跑这个也慢的要死,不过比别的CPU快,2600W像素的RAW降噪大概也要一分钟,3090只要几秒钟。
fengpc
发表于 2024-2-18 16:03
nApoleon 发表于 2024-2-17 22:29
这就是GPU厂商 这些年一直想让大家接受的,也就是GPU除了3D之外还能干其它的,可事实上作用很浅,不然也不会 ...
你不能拿视频转码这个例子来类比,做视频转码I/A/N三家都是专用硬件单元来做的,效果都差不多,但不代表三种硬件的算力差不多
阿崔
发表于 2024-2-18 16:29
所以为啥非要用adobe系的软件?我现在基本blender打天下了。。。
深圳老胡
发表于 2024-2-18 16:49
GPU/iGPU也是个宏观的概念,真正要区分干活的执行效率,起码要细分到ASIC,DSP这个层级的电路功能。
nApoleon
发表于 2024-2-18 16:54
阿崔 发表于 2024-2-18 16:29
所以为啥非要用adobe系的软件?我现在基本blender打天下了。。。
blender是什么...完全不知道...求介绍...
一碗米饭
发表于 2024-2-18 16:54
SkyGZO
发表于 2024-2-18 17:01
这不是很正常的事情吗,给合作方做特别优化,优先级靠前,不然你收了钱的意义何在?就像贵站不也优先为合作的硬件厂商的产品站台[偷笑]
zhao1999250
发表于 2024-2-18 21:16
nApoleon 发表于 2024-2-17 22:13
真要谈优化,我觉得CPU比GPU潜力更大,看Apple的M1就知道了.
m1是给cpu上加了很多硬件编解码单元电路,更像gpu套路而不是cpu。。。
lzc709394
发表于 2024-2-18 21:36
只能说一句无知......以后建议多去b站发表,让更多人看看
脸肿汉化组
发表于 2024-2-18 21:42
我觉得你这个说法不对
Intel核显也能干这事啊,你能说这是Intel塞钱了故意让他能在自家核显跑但是不能在CPU跑吗
脸肿汉化组
发表于 2024-2-18 21:48
nApoleon 发表于 2024-2-17 22:29
这就是GPU厂商 这些年一直想让大家接受的,也就是GPU除了3D之外还能干其它的,可事实上作用很浅,不然也不会 ...
能这样比么
你要比也得比两边的编解码单元面积吧
那我说GFX50S2又大又重结果不能拍8k视频还不如手机,一定是富士和谁的PY交易?
nApoleon
发表于 2024-2-18 21:57
脸肿汉化组 发表于 2024-2-18 21:48
能这样比么
你要比也得比两边的编解码单元面积吧
那我说GFX50S2又大又重结果不能拍8k视频还不如手机,一 ...
有个冷知识,A380,A750,A770的编码效率是一样的,因为那部分的单元就是那么大.
那如果你知道编码,不在乎解码,A380是不是投资回报率最高?
所以,4090真的要比iGPU快上很多很多?或者说,这个快,是真的GPU本身够大更强才快,开始PY导致的快呢?
v4400e
发表于 2024-2-18 22:04
本帖最后由 v4400e 于 2024-2-18 22:06 编辑
其实这个想法,感觉和当年intel larrabee的思路很像,只是即便是intel这样强大的厂家,想搞暴力软加速结果失败了而已。类似的案例还有sony的PS3,最开始的想法是基于cell核心的GPU,结果也是失败了,临时找到NVIDIA的
nApoleon
发表于 2024-2-18 22:11
v4400e 发表于 2024-2-18 22:04
其实这个想法,感觉和当年intel larrabee的思路很像,只是即便是intel这样强大的厂家,想搞暴力软加速结果 ...
可是我至今没理解,为什么整个LR软件都可以脱离GPU,但唯独这个功能就只吃GPU…也许我有点钻牛角尖,但我始终认为Adobe这个功能目前压根没给CPU做丁点的优化…