x3d技术某方面是不是在诉说着CPU架构发展进入瓶颈期？

欧洲阳光 · 发表于 2024-1-9 13:52

老pcdiy估计都知道，CPU是有内置缓存的，对就是1-2-3级缓存。
但都2024年了，非3D技术最猛的三缓存也就32M，对门的内存可随便都32G起步了。
这个问题印象中古早时期在电脑报上就描述过………相信爱动脑的新一代青年也会有人有这样的疑问。
显然，CPU内的缓存造价是吊打内存颗粒价格的，更何况CPU还有空间设计需求。
AMD寄出X3D，是否可以粗糙的理解为这更多的是芯片制造工艺的巨大进步…而AMD肯使这一招，更多的是另一维度的CPU架构提升困难……
最后，有没有可能，英特尔只是不想用，而不是不会用X3D技术（因为会导致高制造成本和性能不完全匹配的销售价格）
以上仅为不严谨的猜测，非相关专业，请指正。【图片】

xy. · 发表于 2024-1-9 13:54

不要从桌面平台发烧友和臭打游戏的角度分析问题, 这些人代表不了任何先进技术, 吃点泔水得了

YoshinoSakura · 发表于 2024-1-9 14:04

这个【图片】就很灵性

af_x_if · 发表于 2024-1-9 14:05

其实服务器芯片早就过32MB了，而且缓存越来越重要得原因很简单，就是算力和带宽倍率越来越大了。
超级计算机早年得标准是每Gflops要配1GB/s的内存带宽，这已经是有缓存CPU的优化配置了，对门向量机每Gflops配8GB/s内存。
现在以Frontier使用的EPYC 7453为例，双精度浮点1232Gflops，带宽204GB/s，6倍差。

欧洲阳光 · 发表于 2024-1-9 14:08

YoshinoSakura 发表于 2024-1-9 14:04
这个【图片】就很灵性

我先发在了贴吧，后来一想可能那边看热闹的更多，就粘贴过来了………

af_x_if · 发表于 2024-1-9 14:08

实际上就是CPU架构相比本应该一起发展的内存发展速度强过头了

YoshinoSakura · 发表于 2024-1-9 14:17

YoshinoSakura 发表于 2024-1-9 14:04
这个【图片】就很灵性

不知道有没有好事之徒，对比一下Intel不同三缓下的游戏表现如何

caoyuxin · 发表于 2024-1-9 14:19

内存带宽上升太慢了，核心zen出来后，桌面平台直接4核心到16核心了，内存还是双通道....

zhuifeng88 · 发表于 2024-1-9 14:34

af_x_if 发表于 2024-1-9 14:05
其实服务器芯片早就过32MB了，而且缓存越来越重要得原因很简单，就是算力和带宽倍率越来越大了。
超级计算 ...

不算x3d的话
amd server端总量超过32MB, 但是对每个核心而言低延迟可用的还是32MB, 访问其他ccx的L3的延迟和访问内存基本等同
intel server端总量超过32MB, 访问其他stop的延迟随着距离逐渐上升, 在不超过10MB的点上延迟就会达到amd l3的2倍以上

gladiator · 发表于 2024-1-9 15:05

不止CPU，显卡现在不也是么，AMD的zen3 X3D和RDNA2不是就用实际行动向大家证明了，只要cache堆大就可以缓解内存/显存的带宽压力，然后老黄马上跟进调大L2把40系显卡的显存位宽全缩了，256bit的80和192bit的70甚至128bit的60

momoka · 发表于 2024-1-9 15:07

YoshinoSakura 发表于 2024-1-9 14:17
不知道有没有好事之徒，对比一下Intel不同三缓下的游戏表现如何

总觉得intel那边比较麻烦。尤其是是ring多了可能加缓存不是为了提高效能还是为了防止性能下降？

比如20M L3的1660V3（单ring)，25M L3的2666V3(单ring)，35M L3的2697V3(1.5ring?)和45M L3的2696V3(2ring)，如果设为同频，在跑对L3极为敏感的FF14 benchmark时候，z总fps和最低帧数都属于误差范围，在3.7~3.8GG左右都是60fps左右(频率不到的通过关核心和超外频）。缓存最小的1660V3稍微超下主频和内存都可以吊打缓存翻倍不止的2696V3。不像zen3和zen4根据缓存不同有巨大差距。

即使都是单ring的136和139，关成同核心线程和频率后，差距也远比amd的小。

PolyMorph · 发表于 2024-1-9 15:09

没有瓶颈，

arbicool · 发表于 2024-1-9 15:24

gladiator 发表于 2024-1-9 15:05
不止CPU，显卡现在不也是么，AMD的zen3 X3D和RDNA2不是就用实际行动向大家证明了，只要cache堆大就可以缓解 ...

顯卡哪是這樣類比？

黃卡除了GTX280 / 480+580/ 780 /3080以外幾乎沒有256bit往上的產品

RTX30時期顯然是從AMD RDNA2的壓力才給3080用上102的核心，也是在走讓本來104的核心在步進上被103換位

gladiator · 发表于 2024-1-9 15:29

arbicool 发表于 2024-1-9 15:24
顯卡哪是這樣類比？

黃卡除了GTX280 / 480+580/ 780 /3080以外幾乎沒有256bit往上的產品

4070/70ti 192bit因为换了G6X勉强还比3070强点，但4060都128bit了还是G6，4060显存带宽比3060还低也太搞了

arbicool · 发表于 2024-1-9 15:43

gladiator 发表于 2024-1-9 15:29
4070/70ti 192bit因为换了G6X勉强还比3070强点，但4060都128bit了还是G6，4060显存带宽比3060还低也太搞 ...

你說的問題只要RTX40定價五折就不是問題

現在的RTX40就是溢價100%；我買了4090並不表示我接受這個價格

zhjook · 发表于 2024-1-9 15:47

本帖最后由 zhjook 于 2024-1-9 15:49 编辑

缓存张云的芯片面积是很大的，大了 die面积就大  芯片就月贵，良品率也会受影响
x3d 就是叠加缓存，不占用芯片面积，而是叠加，分别  制造，良品率也会改善

Intel 的芯片 die 已经很大了，再有就是工艺制程落后台积电，就更不可能加大缓存了，  没看见大核只有8个吗，其他只能堆小核

dens · 发表于 2024-1-9 15:49

我觉得可能是Intel还没到那一步。14nm都+++多少次了，10nm也才出来不久。
性能也是肉眼可见的提升，再打磨打磨还能撑许久。没必要加大成本增加缓存容量。
这个大杀招不到被彻底反超的时刻估计不会用。
amd我感觉制程受制于人，可能预感到5nm提升有限，所以中途推出了高成本的X3D？
我也是瞎猜的

赫敏 · 发表于 2024-1-9 15:51

缓存和内存难以发展的原因是要保证一致性，被现有的编程模型限制了速度。如果现有的编程模型不要求一致性只需数据本地化那缓存/内存的发展可以跟cpu一样快甚至跟GPU/NPU一样快，堆规模速度就能线性提升

gbawrc · 发表于 2024-1-9 15:54

提示: 作者被禁止或删除内容自动屏蔽

zhuifeng88 · 发表于 2024-1-9 16:11

本帖最后由 zhuifeng88 于 2024-1-9 16:14 编辑

赫敏发表于 2024-1-9 15:51
缓存和内存难以发展的原因是要保证一致性，被现有的编程模型限制了速度。如果现有的编程模型不要求一致性只 ...

gpu的l1就是可以不要求一致性的, 仍然堆不动, 面积上就是堆不动的

flshlion · 发表于 2024-1-9 16:14

之前看资料ZEN3的6发射，Intel这边12代之前是4发射，12代后是6发射。不知道8发射10发射什么时候出来。

YoshinoSakura · 发表于 2024-1-9 18:08

momoka 发表于 2024-1-9 15:07
总觉得intel那边比较麻烦。尤其是是ring多了可能加缓存不是为了提高效能还是为了防止性能下降？

比如20M ...

所以有没有好事者拿i3-14100与降频关核降ring的14900K碰一碰
不过14代的i3的l2满血了没有

简单搜索了一下有好事之徒拿x79的两款试了一下
https://www.bilibili.com/video/BV1de4y1C77v?t=247.7

momoka · 发表于 2024-1-9 19:34

本帖最后由 momoka 于 2024-1-9 19:38 编辑

YoshinoSakura 发表于 2024-1-9 18:08
所以有没有好事者拿i3-14100与降频关核降ring的14900K碰一碰
不过14代的i3的l2满血了没有

我没看这个测试，但是我手上保留着 x79平台，有1650V2，2667v2和1680v2，之前也有1660V2，涵盖了12~25M L3的范畴。

但是这些U核心太少了,最多只有8个，不会遇到V3那种有1.5甚至2个ring的情况，所以25M L3的1680V2和2667V2确实会比12M的1650v2略有优势。也有可能是1650v2的12M缓存过少。但是 v3那边，20M到45M我是看不出明显差别的。双超的1660v3完全胜利（我那个1660 v3发过贴，超频能力较强），凭借频率和ring甚至能打频率略低的6950x，像FF14 endwalker测试里甚至能看到一点点同频skylake和zen3的尾灯。

YoshinoSakura · 发表于 2024-1-9 19:46

momoka 发表于 2024-1-9 19:34
我没看这个测试，但是我手上保留着 x79平台，有1650V2，2667v2和1680v2，之前也有1660V2，涵盖了12~25M L ...

肯定是同架构同频对比才有意义啊，变量尽量控制是L3才有意义
毕竟是探究intel的L3有没有AMD那么神奇嘛

我輩樹である · 发表于 2024-1-9 19:58

本帖最后由我輩樹である于 2024-1-9 20:00 编辑

cpu根本没什么需求，而且有遗留代码限制，都快变hub了。要是能靠上风口，几年构架一更新都不是事。现在的需求也就够在老架构上缝缝补补，现在的x3d也是靠着超算需求才推了一把。

要搞清楚谁才是出钱的，反正不是用液氮超到10个人类感谢的人出钱。

Ray.D · 发表于 2024-1-9 19:59

U进入瓶颈期貌似很早以前就提过了，你看看频率从4004到P3/P4（我记得P4最高频率是3.8还是4.0）用了几年然后从P4 到现在频率提升了多少。以前牙膏农企每次发新U都是拼频率，想想就激动。。。现在二家都是拼性能（跑分）。。。如果没有新的材料和技术，频率很难大幅提升，只能靠奇技淫巧来提升性能，暴力提升频率提升性能的时代已经一起不复返了。。。

momoka · 发表于 2024-1-9 20:02

本帖最后由 momoka 于 2024-1-10 09:40 编辑

YoshinoSakura 发表于 2024-1-9 19:46
肯定是同架构同频对比才有意义啊，变量尽量控制是L3才有意义
毕竟是探究intel的L3有没有AMD那么神奇嘛 ...

我的意思是，x79测试的V1和v2核心太少了，最多就8个，没有跨ring，而且我测试的L3低至12M，高至25M，可能正好是能对v2有提高的范围。

但是一旦缓存变成都是20M以上，20M的126和24M的136，和139的36M在同频同线程下，差距不明显。

同样在20M以上，v3多核心因为跨ring了，虽然L3最多到45M，但是我几乎测不出和20M的差异。

同样的问题推测是不是在mesh构架上也存在，7900x和10900x的缓存容量也有不小的差异，但是暂时没有听到10900x游戏比7900x明显强的消息。

总之牙膏有点复杂，L3大小经常没有AMD那样立竿见影的效果。

牙膏好像用多大的L3喜欢用每核心多大容量来衡量，比如同构架下每核心1.5M，2M，2.5M等等，此时容量确实越大越好，比如15M L3的1660V2比12M L3的1650V2是稍微强点。但是一旦到了1660V3 8核心20M，和2696 V3的 18核心 45M缓存，其实每核心都是2.5M，虽然总容量差距很大，但是实际差距我感觉不出来（ winrar稍微明显，游戏几乎没感觉）。即使2696v3关核心成8核心，显示还是有45M缓存，也没用。

掩不住的锋芒 · 发表于 2024-1-10 02:30

本帖最后由掩不住的锋芒于 2024-1-10 02:33 编辑

感觉楼主说的有道理，现在INTEL在用不用更先进制程工艺的问题上都没想好呢。
最后，有没有可能，英特尔只是不想用，而不是不会用更先进的制程工艺技术（因为会导致高制造成本和性能不完全匹配的销售价格）
因为现在没有X3D 的INTEL 处理器也没有比X3D的便宜多少，论坛还有比较大的分歧，到底是7800X3D 和14900K 谁是游戏最佳CPU呢？当然不算性价比哈，14900K 比7800X3D贵的多，当然，待机功耗更低，还可以做其他的生产力等。 14900K 没有X3D 但是依然有高制造成本，和性能不匹配的销售价格呢，如果加了X3D 那岂不是更离谱。

厌夜 · 发表于 2024-1-10 03:45

本帖最后由厌夜于 2024-1-10 04:06 编辑

算了，编辑了。

梭出一个小号 · 发表于 2024-1-10 09:22

工艺红利没了，把架构提升的缓慢也暴露出来了

那就再缝缝补补堆出巨大规模的核也是一种进步

账号		自动登录	找回密码
密码			加入我们

gbawrc gbawrc 当前离线积分 3609	发表于 2024-1-9 15:54 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
gbawrc gbawrc 当前离线积分 3609
	回复举报

[CPU] x3d技术某方面是不是在诉说着CPU架构发展进入瓶颈期？

浏览过的版块