找回密码
 加入我们
搜索
      
楼主: nApoleon

[显卡] 其实所有的"AI加速"以我看就是GPU和软件厂商的PY交易~

[复制链接]
发表于 2024-2-20 03:17 | 显示全部楼层
目前人类还无法改变、解决时间这个“常量”“因素”,采用通用,并行、无规则等计算,也是没办法的事,权宜之计吧。

看了几楼,就发现楼主只适合当领导,皇帝才能高屋建瓴、才有新衣可穿,群众才有想法、有思路、有意愿、有事干,群众才能欢乐的了却残生。

发表于 2024-2-20 05:43 | 显示全部楼层
现在不少图像算法也用了深度学习,用GPU跑效率更高,当然不用训练模型,其实也不用太强的GPU,差不了多少,所以未来CPU集成APU是主流,高端GPU在民间还是游戏为主吧
发表于 2024-2-20 09:06 | 显示全部楼层
nApoleon 发表于 2024-2-17 22:13
真要谈优化,我觉得CPU比GPU潜力更大,看Apple的M1就知道了.

轮子,M1其实有很多硬件加速单元的,就是为对应的任务设计了专门的硬件部分,苹果瞄准的场景又很专一,所以可以专门设计。像EDA这类从来没听说过苹果
发表于 2024-2-20 09:22 | 显示全部楼层
https://www.chiphell.com/thread-2584672-1-1.html
我比较赞同这个帖子作者的说法,最恶心的其实就是文职部门,一群屁都不懂的文职人员,可以说就是科技文盲,动不动就用智能 AI这种字眼对一个普通的应用进行修饰,一个普通的硬件加速=AI加速=智能绘制=智能制造=AI工厂,恶心至极,一个H.265视频用GPU硬解可以说成是AI处理 AI解码,一个计算器做了一个1+1=2的数学题也可以说成AI计算,涉嫌虚假宣传过度宣传,但有没有明确的条纹规定去约束他们,牛逼吹的科技水平比肩欧美,压力全给到了一线的程序猿
发表于 2024-2-20 16:44 | 显示全部楼层
星辰柯博文 发表于 2024-2-18 22:57
CPU是标量运算、顺序运算,GPU是向量运算、并行运算。
这是大学计算机原理的基础知识。

“这是大学计算机原理的基础知识。”
哈哈哈哈.说实话绷不住了.....
发表于 2024-2-20 17:59 | 显示全部楼层
以前评测里,amx好象是能勉强摸到老gpu的屁股(仅限inference)
msdt就纯属想多了
发表于 2024-2-20 19:07 | 显示全部楼层

https://define-technology.com/hgx-8x-h100-nvlink-benchmarks/
H100在PCIe 5.0上的单向带宽实际只能跑到54GB/s,这是我查到PCIe带宽最大的卡了,x86和PCIe深度绑定,当然也被PCIe拖了不少后腿,协同跑肯定体验很差,不如GPU把数据吃进去后自己跑;ARM没有这种历史包袱,老黄不想被PCIe拖后腿就搞nvlink了。
发表于 2024-2-20 19:15 | 显示全部楼层
v4400e 发表于 2024-2-18 22:04
其实这个想法,感觉和当年intel larrabee的思路很像,只是即便是intel这样强大的厂家,想搞暴力软加速结果 ...

intel还在搞呢,现在是诸如Intel® Data Streaming Accelerator(DSA)、Intel® In-memory Analytics Accelerator(IAA)一类的多功能协处理器了(不只是简单的加密单元那种),只不过大部分软件厂商不给面子啊,不愿动已经成熟的软件架构;intel总想吸纳一些专用系统里的优点到它的通用系统里面来,就是响应者不多。
 楼主| 发表于 2024-2-20 19:17 | 显示全部楼层
21PENNY 发表于 2024-2-20 19:07
https://define-technology.com/hgx-8x-h100-nvlink-benchmarks/
H100在PCIe 5.0上的单向带宽实际只能跑 ...

原来是这样...
发表于 2024-2-20 21:12 | 显示全部楼层
nApoleon 发表于 2024-2-17 22:13
真要谈优化,我觉得CPU比GPU潜力更大,看Apple的M1就知道了.

但是M1除开GPU规模也很大之外,还有一堆专门的加速器吧
发表于 2024-2-20 21:36 | 显示全部楼层
CPU可以单独干,GPU也可以单独干,但要让CPU和GPU同时干,同时进行两套代码,而输出结果又要互补的结合在一起的话,这个确实比较难。
发表于 2024-2-21 10:21 | 显示全部楼层
LZ认为这个功能通过优化,可以让 cpu 达到 gpu 一样的速度?问题是这是做不到呀……
发表于 2024-2-21 11:32 来自手机 | 显示全部楼层
确实如此,想想专业软件要用专业显卡的事,其实都是显卡上做文章不让普通显卡跑顺畅。。。其实驱动或者注册表破解后游戏卡一样可以跑起来,solidworks就是如此
发表于 2024-2-21 11:40 | 显示全部楼层
cpu不是不能干,是性能太低,对于这种运算,cpu和gpu都可以量化为算力指标

而且根据cpu和gpu的原理,这种并行简单运算的场景,cpu顶了天才多少核心?gpu随便掏出几千核心来算
发表于 2024-2-21 11:44 | 显示全部楼层


和内存带宽紧密相关啊
发表于 2024-2-21 12:25 | 显示全部楼层
gpu做这些事还是相对cpu有优势的吧,就比如miner,cpu和gpu不是一个级别一样。
发表于 2024-2-21 13:49 | 显示全部楼层
你猜猜为什么当年SLI和CROSSFIRE都是要用一样的卡
发表于 2024-2-21 13:58 | 显示全部楼层
CPU要想爆发,本质卡住它的是什么?
是很多程序无法拆分成无限进程来做成并行,所以,对大多数用户来说,太多的核心根本没用
GPU就没有这个限制,多多益善,所以GPU有了无限升级的需求
并行计算才有永无止境的升级需求,intel如果可以开发出传说的逆超线程,才能翻身,不过逆超线程似乎是永远无法实现的哦
发表于 2024-2-22 12:00 | 显示全部楼层
为什么要开车,走路不也一样能到么?

cpu不是不能做,只是很慢,人们慢慢发展各种专用硬件去offload cpu不擅长的任务。

adobe不是不优化,是发现优化的上限也就那样,吃力不讨好,干嘛做。

如果cpu能做显卡的事,为什么还要加入avx amx这样的单元呢,说明原有的芯片不太适合做并行计算.
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-5-29 11:18 , Processed in 0.010945 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表