ULtra2 285/265的小核性能及模块化的探讨

yy323818 · 发表于 2024-10-26 13:08

其实我看LUNA LAKE就在多模块之间做了一个8M的缓存，是不是也是Intel 的一种尝试，可能就是8M有点小。

赫敏 · 发表于 2024-10-26 13:09

本帖最后由赫敏于 2024-10-26 00:11 编辑

ONEChoy 发表于 2024-10-25 23:41
其实一直想不通一个问题消费端x86的发展如果按照前因去正常推断后果：
双巨核+众小核似乎 ...

你是不是要找：骁龙8 Elite

众小核是不可能的，核心太多通信成本会超过计算收益。服务器上的多核心都用虚拟化隔离相当于阻止了过多的通信

ONEChoy · 发表于 2024-10-26 13:26

提示: 作者被禁止或删除内容自动屏蔽

yoloh · 发表于 2024-10-26 13:30

ONEChoy 发表于 2024-10-26 13:26
不是大哥全世界都朝着异构和soc大力发展必须全大/全小这种想法说你们是封建党不过分吧。。。
...

什么时候牙膏厂出异构大小核的服务器U再扯大力发展异构cpu吧。

ONEChoy · 发表于 2024-10-26 13:43

提示: 作者被禁止或删除内容自动屏蔽

ONEChoy · 发表于 2024-10-26 14:01

提示: 作者被禁止或删除内容自动屏蔽

xy. · 发表于 2024-10-26 14:13

本帖最后由 xy. 于 2024-10-26 14:14 编辑

ONEChoy 发表于 2024-10-26 14:01
可惜elite不是x86呢。。。消费级多小核不是那种多小核 32/64顶天了都。。。

即使前提实现了也没可能
apple silicon 没有使用标准的 arm 公版核, win 要是兼容这个玩意, NT 内核中处理中断控制器, pcie, iommu, 内存管理(apple 用 16K 页表) 的部分都得重写
微软表示我他吗现在 x86 都懒得搞

PolyMorph · 发表于 2024-10-26 14:45

ykdo 发表于 2024-10-26 10:24
楼主故意避轻就重，故意嘎吹U2而贬低zen5。U2核间延迟确实低于zen5，但是U2的内存延迟高于zen5楼主怎么不说 ...

这代塞的东西真的多估计优化不过来了。这延迟很难绷的住。
昨天晚上已经看见9333g2 mt速度2600 aida64 139g复制58ns延迟的成绩了。比纯自动的8400xmp提升大多了。
理论上上限是提了吃鸡50人roll点，永劫5倍体天际线是比149要好一点的。实际并不是这样。是架构或者工艺翻车（149ks关超功耗等于285k）还是优化跟不上就不知道了。
真心想买15代还是618再说一个是可以弄清楚是不是优化问题另一个是15代怎么玩也有思路了。

ONEChoy · 发表于 2024-10-26 14:50

提示: 作者被禁止或删除内容自动屏蔽

ykdo · 发表于 2024-10-26 15:17

yy323818 发表于 2024-10-26 11:44
咱确实没有去吹任何一家U，U2的内存延迟我都说了啊，大核80NS，小核120NS，两家都是外置内存控制器，谁又 ...

平和心态没错，但是你没说U2内存延迟比zen5慢啊大姐。两家比的话U2优点少缺点多，比9950X总体还是差一些。

ykdo · 发表于 2024-10-26 15:18

tengyun 发表于 2024-10-26 11:51
U2的内存延迟要接近100NS了
游戏性能倒退到12代。

这种级别的U，视频编码的优势忽略不计好吧。要是初级U的话，I家视频编码确实是一大优势。

ykdo · 发表于 2024-10-26 15:20

PolyMorph 发表于 2024-10-26 14:45
这代塞的东西真的多估计优化不过来了。这延迟很难绷的住。
昨天晚上已经看见9333g2 mt速度2600 aida64 13 ...

这种接口只用一代的腊鸡，懒得玩。自我卖掉X299以来，再也提不起玩日益拉跨的牙膏板U的兴趣

tengyun · 发表于 2024-10-26 15:33

本帖最后由 tengyun 于 2024-10-26 15:34 编辑

ykdo 发表于 2024-10-26 15:18
这种级别的U，视频编码的优势忽略不计好吧。要是初级U的话，I家视频编码确实是一大优势。 ...

不一样的。
PR实时预览优势 I家独一档。
要是没这个核显，U200讲实话可买性又低了一分。

leung018 · 发表于 2024-10-26 16:08

抢不到285K，没忍住，入了265K，到手了，只能说风冷生产力党狂喜，应该再等等入285K的。

赫敏 · 发表于 2024-10-26 16:31

本帖最后由赫敏于 2024-10-26 03:35 编辑

KazamiKazuki 发表于 2024-10-25 23:55
200M级别的SRAM成本简直不敢想象

7950x3D有144MB SRAM也很便宜啊，9684x有超过1G SRAM咸鱼也就卖一万多。SRAM已经是成本最低的逻辑芯片了

generalshepherd · 发表于 2024-10-26 17:03

本帖最后由 generalshepherd 于 2024-10-26 17:19 编辑

dcl2009 发表于 2024-10-26 12:11
四级缓存意义不大，瓶颈在CCD-IOD带宽

或者你的意思是两个CCD中间放一块4级缓存？那4级缓存怎么跟三级缓 ...

来年1月的Strix Halo就会有物理层和协议层双重提升

CCD-IOD互联采用先进封装已经肯定的，传闻也会提高CCX-IF的位宽一倍 (32B+16B > 64B+32B ?)

相比L4，AMD反而应该会利用X3D/SOIC技术把L3由CCD分离出去，做一片大L3底片 (L3D)，两块或更多的CCD堆叠在上面，不同CCD的核心共享一组大L3。提高CCX核心数上限，降低出现跨CCX延迟问题的SKU组合

举例说有片长条形L3D，两排8个节点，共16个节点，每个节点有8MB L3 block，在这片L3D由ring连接起来，共128MB L3。CCD每核心留个1MB L3 block，作为与L3D的L3 clock的垂直连接点。两块8C CCD垂直堆叠在L3D上面，这样就是个原生16C+144MB L3 CCX。

yy323818 · 发表于 2024-10-26 17:21

generalshepherd 发表于 2024-10-26 17:03
来年1月的Strix Halo就会有物理层和协议层双重提升

CCD-IOD互联采用先进封装已经肯定的，传闻也会提高CC ...

这个技术要是能实现，核间的通信，和模块间的通信，确实是解决了，缓存在下面，核心在上面，就怕积热。有点闪存芯片3D堆叠的意思

dcl2009 · 发表于 2024-10-26 17:25

generalshepherd 发表于 2024-10-26 17:03
来年1月的Strix Halo就会有物理层和协议层双重提升

CCD-IOD互联采用先进封装已经肯定的，传闻也会提高CC ...

L3共享更像是x3d的演化版本，并不能完全解决跨CCD延迟问题，相当于一部分L3分出去挂在单独的环上，双环架构有利有弊，希望利大于弊。这种架构对多CCD是个灾难，因为环上频率肯定不高，还不如每个CCD上贴一片全速3d缓存。要不Intel早就爆ring了。

IF总线升级倒是值得期待，单CCD吃不满内存带宽真是捉急

generalshepherd · 发表于 2024-10-26 18:09

yy323818 发表于 2024-10-26 17:21
这个技术要是能实现，核间的通信，和模块间的通信，确实是解决了，缓存在下面，核心在上面，就怕积热。有 ...

我的想法其实也就是现在的MI300X，MI300X的IOD就有各种IO和256MB缓存，上面能堆疊两块XCD，或三块Zen4 CCD

积热问题才不用担心，因为CCD在最上面能直触IHS，才是解决过去L3D在CCD上面，做了保温盖的问题

9550pro在推特最新的推文，似乎就是说9000X3D把L3D和CCD上下反转了, 得以大幅提高boost clock

generalshepherd · 发表于 2024-10-26 18:45

本帖最后由 generalshepherd 于 2024-10-26 19:17 编辑

dcl2009 发表于 2024-10-26 17:25
L3共享更像是x3d的演化版本，并不能完全解决跨CCD延迟问题，相当于一部分L3分出去挂在单独的环上，双环架 ...

現在的Zen3 Zen4 X3D，ring在CCD L3里。L3D的L3应该是沒有ring，只是CCD上每个L3 block的垂直延伸

我提出的想法并没有双环的概念，只是把L3D和CCD上下反转，L3D做在底下，ring也在L3D的L3里，L3D的尺寸是能堆叠两块CCD在上面的大小。CCD里不会有ring，CCD的每个Core+L2+L3变成在L3D的L3 block上面的垂直延伸。

ring/L3频率在zen这边基本不需要在意。zen1就说了L3频率=CCX內最高核心频率。 Zen3才引入了ring，但从来没有能监测到ring频率存在，倒是L3频率依然存在。

16个节点应该就是ring架构的可接受上限，Turin-D的CCX就是16个Zen5C，长条型状应该说明还是ring架构。 Raptor-Lake也有14个节点 (8个P核+4个E簇+iGPU+Uncore)。之前文件流出說Zen6 CCX上限可达32C应该只限于伺服器，就不猜测了。消费级产品应该还是会停留在16核。

或者简单一点，试想像一个MI300X的256MB IOD，在上面堆叠2-3块CCD。CCD不再有L3，但L2由所有CCD内核心共享(像ARM一样)。2-3块CCD共享下面IOD的256MB L3。这样较简单，也维持了只需三级缓存结构。

ooff22 · 发表于 2024-10-26 20:13

小核是全新的,会慢慢加各种指令,就演变成大核了.

dcl2009 · 发表于 2024-10-26 21:51

generalshepherd 发表于 2024-10-26 18:45
現在的Zen3 Zen4 X3D，ring在CCD L3里。L3D的L3应该是沒有ring，只是CCD上每个L3 block的垂直延伸

我提 ...

你的想法应该是想做全MESH。

其实L3也是分区的，每个内核对着一小块L3，其他的L3需要通过总线来访问，Intel/AMD都是这种架构，都是8个核心挂同一个总线。要解决这个问题只有做全MESH，目前成本太高，核多了MESH网也会爆炸，推进缓慢。

来张图吧，x3d是这么实现的，通过过孔直接把缓存接到总线上，而且是每一个核心对应一个独立节点。

捕获.JPG

Illidan2004 · 发表于 2024-10-30 14:02

yy323818 发表于 2024-10-26 10:02

其实还有一个延迟很多人没有考虑就是任务从大核搬到小核切换时的延迟

账号		自动登录	找回密码
密码			加入我们

ONEChoy ONEChoy 当前离线积分 1963	发表于 2024-10-26 13:26 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ONEChoy ONEChoy 当前离线积分 1963
	回复举报

ONEChoy ONEChoy 当前离线积分 1963	发表于 2024-10-26 13:43 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ONEChoy ONEChoy 当前离线积分 1963
	回复举报

ONEChoy ONEChoy 当前离线积分 1963	发表于 2024-10-26 14:01 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ONEChoy ONEChoy 当前离线积分 1963
	回复举报

ONEChoy ONEChoy 当前离线积分 1963	发表于 2024-10-26 14:50 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ONEChoy ONEChoy 当前离线积分 1963
	回复举报

[CPU] ULtra2 285/265的小核性能及模块化的探讨

浏览过的版块