litguy
发表于 2022-12-10 08:54
aasa0001 发表于 2022-12-9 20:22
能吃满都是神优化,10%以下才是渣优化
显然不是这么简单,我司收购老外产品,在国产 CPU 上面很多时候 100%,其实没干活,线程太多,在抢锁,软件架构比较老,大量依赖锁同步,ARM 又没有 x86 那样高效的锁实现,另一个是 64 核心 ARM 垮 8 个 numa,内存的垮 numa 也有不少开销,so,吃满也未必是好事,具体问题具体分析
tim6252
发表于 2022-12-10 14:07
litguy 发表于 2022-12-10 08:54
显然不是这么简单,我司收购老外产品,在国产 CPU 上面很多时候 100%,其实没干活,线程太多,在抢锁,软 ...
层主是专业的果然解答靠谱。 这里其实gpu压片的时候就编码那部分单元在工作,这部分对于更大规模的3d单元就是很小占比的。
aasa0001
发表于 2022-12-11 18:11
本帖最后由 aasa0001 于 2022-12-11 18:14 编辑
litguy 发表于 2022-12-10 08:54
显然不是这么简单,我司收购老外产品,在国产 CPU 上面很多时候 100%,其实没干活,线程太多,在抢锁,软 ...
你不能拿辣鸡的国产CPU(这里直接接受你的分析)和上下文里的主流PC/server比。
最重要的,能多线程拉满跑到100%,正常来说已经有比较好的代码基础了;距离提升可能就只有一步之遥。
真正的辣鸡代码,根本无法做多线程。
PS:
你说ARM的锁辣鸡,我不信,不可能连这个基本的常用场景都不行 (核很多的情况除外)。
何况按照M1的分析,一大亮点就是锁特别高效,(无竞争时)远超x86 (我推测是牺牲了多核升单核)。
x86的锁(lock-prefix)效率并不怎么高,挺容易成为瓶颈。如果场景里能用load/store代替(一般不可能),可能快不少。
PS2:
能提升就是在干活。
64C比1C快20%那也是有效干活,除非<100%那才算徒劳。
litguy
发表于 2022-12-12 12:32
aasa0001 发表于 2022-12-11 18:11
你不能拿辣鸡的国产CPU(这里直接接受你的分析)和上下文里的主流PC/server比。
最重要的,能多线程拉满 ...
https://zhuanlan.zhihu.com/p/129276779
这个还是说 ARM V8.2
V8.1 相对于我们用的 V8 就是飞跃
即使如此,V8.2 都孱弱不堪,不是你相信不相信的问题
litguy
发表于 2022-12-12 12:37
aasa0001 发表于 2022-12-11 18:11
你不能拿辣鸡的国产CPU(这里直接接受你的分析)和上下文里的主流PC/server比。
最重要的,能多线程拉满 ...
最近弄扩展性,大概是 70% 线性加速比,和甲方要求的 80% 都是有差异的,你那个 64C 比 1C 快 20%,那只能自娱自乐了,用户眼里至少需要 1C x 64 * 0.8 才可能付款
aasa0001
发表于 2022-12-12 22:40
litguy 发表于 2022-12-12 12:37
最近弄扩展性,大概是 70% 线性加速比,和甲方要求的 80% 都是有差异的,你那个 64C 比 1C 快 20%,那只 ...
那是你的一个甲方而已,不代表别人。
而且要求加速比本来就比较搞笑,正常逻辑不是要绝对性能,就是要per-core/per-thread的成本。
server总是自带并行,scaling差就亏了;而pc/workstation基本就是单一任务,只要有提升就是赢。
aasa0001
发表于 2022-12-12 22:53
litguy 发表于 2022-12-12 12:32
https://zhuanlan.zhihu.com/p/129276779
这个还是说 ARM V8.2
V8.1 相对于我们用的 V8 就是飞跃
所以你想说什么?只是想喷一下你的目标平台吗?
v1=8.4,m1=v8.5,n2=9.0。
litguy
发表于 2022-12-13 13:31
aasa0001 发表于 2022-12-12 22:53
所以你想说什么?只是想喷一下你的目标平台吗?
v1=8.4,m1=v8.5,n2=9.0。
不是喷目标平台,是告诉你 ARM V8 锁性能的问题
KMDYX
发表于 2022-12-13 14:32
nApoleon 发表于 2022-12-8 23:03
我懂你意思,现在尴尬的就是剪辑过程核显开着会不够流畅,但如果关了,导出的速度会大大降低… ...
我怎么记得一两年前的win10某一个版本更新就能让pr、ae调用不输出的核显了啊。当时我用的是87k+1070ti,是可以硬件加速的[吃惊]
zhgna
发表于 2022-12-13 14:33
2千元的quest2,播放8k视频一点问题都没有,一般pc吃奶的劲用上都是ppt效果
wangguan8602745
发表于 2022-12-13 14:44
新手最近刚用pr 请问朋友的机器基本配置和我一样
但是cpu是12700f不带核显
我是12700k
我确实比他流畅就是因为有核显的原因?
wangguan8602745
发表于 2022-12-13 14:44
新手最近刚用pr 请问朋友的机器基本配置和我一样
但是cpu是12700f不带核显
我是12700k
我确实比他流畅就是因为有核显的原因?
KMDYX
发表于 2022-12-13 14:52
nApoleon 发表于 2022-12-8 23:03
我懂你意思,现在尴尬的就是剪辑过程核显开着会不够流畅,但如果关了,导出的速度会大大降低… ...
记得当时还有各种办法去同时调用n卡跟核显,一个是在核显上再接一个hdmi设备,一个是用软件模拟。。。结果后面win10 某一个版本更新后,就什么设置都不用,只要同时打开独显跟核显,用独显输出也直接能调用核显来给视频回访、导出来加速[吃惊]
aasa0001
发表于 2022-12-13 20:12
litguy 发表于 2022-12-13 13:31
不是喷目标平台,是告诉你 ARM V8 锁性能的问题
和我的回复/本帖有关的是x86 pc/ws。
而和x86生态重叠的arm是neoverse和m1。
来路不明的v8.0实现完全离题,我也毫无兴趣了解。
litguy
发表于 2022-12-14 12:35
aasa0001 发表于 2022-12-13 20:12
和我的回复/本帖有关的是x86 pc/ws。
而和x86生态重叠的arm是neoverse和m1。
来路不明的v8.0实现完全离题 ...
没打算让你了解
国产飞腾就是 V8.0 结构
信创的主力 CPU,大量出货呢
只是针对你回复我而回复你
不是你认为重叠的就是重叠的
vINyLogY
发表于 2022-12-15 06:12
Intel 有 ARC + iGPU 的 Deeplink 混合编解码,似乎至少达芬奇是支持的?
warelf2
发表于 2022-12-15 08:34
现在剪片子达芬奇的作用越来越大,以前只是单独tc用,现在你完全不用pr也没啥问题,原地踏步太多年了,至少ae还给你整了个多线程渲染支持,pr还是继续躺平,所有硬件里大容量固态的收益最高
beowulf
发表于 2022-12-15 09:14
nApoleon 发表于 2022-12-8 20:48
我当时瞬间就理解为何M1能功耗性能比那么强了...
就像gpu编程刚火那几年,随便什么ppt上都是几百倍的性能提升,
都是软硬件有针对性的开发。[狂笑]
beowulf
发表于 2022-12-15 09:15
PPXG 发表于 2022-12-8 22:55
隔壁某些工业软件更是软件PY的代表
一个入门的Quadro T400,某软件拖模比2080Ti都流畅。。。。。 ...
历来如此,要不那些quadro这么多年怎么骗钱啊
beowulf
发表于 2022-12-15 09:17
easyeiji 发表于 2022-12-9 15:32
其实就是套娃,一层又一层,最后效率一点点
或者说软件很多都是屎山。