找回密码
 加入我们
搜索
      
楼主: yy323818

[CPU] ULtra2 285/265的小核性能及模块化的探讨

[复制链接]
 楼主| 发表于 2024-10-26 13:08 来自手机 | 显示全部楼层
其实我看LUNA LAKE就在多模块之间做了一个8M的缓存,是不是也是Intel 的一种尝试,可能就是8M有点小。
发表于 2024-10-26 13:09 | 显示全部楼层
本帖最后由 赫敏 于 2024-10-26 00:11 编辑
ONEChoy 发表于 2024-10-25 23:41
其实一直想不通一个问题 消费端x86的发展 如果按照前因去正常推断后果:
            双巨核+众小核似乎 ...


你是不是要找:骁龙8 Elite

众小核是不可能的,核心太多通信成本会超过计算收益。服务器上的多核心都用虚拟化隔离相当于阻止了过多的通信
发表于 2024-10-26 13:26 | 显示全部楼层
yoloh 发表于 2024-10-26 12:57
可以专门针对不玩游戏的人单独出全小核的U

不是大哥 全世界都朝着异构和soc大力发展 必须全大/全小这种想法 说你们是封建党不过分吧。。。
            专机专u?一个设计一个流片给所有人用不行吗?你不用让它闲着好啦碍你什么事了吗?
            你要不要看看先驱是怎么做的?同代iphone普通版和p/pm用的是同一颗u 影响到产品划分等级了吗?
            就算是MxU这种堆性能级别的怪物 也只是简单粗暴地堆叠 原始soc异构设计是一刀没动。。。
发表于 2024-10-26 13:30 | 显示全部楼层
ONEChoy 发表于 2024-10-26 13:26
不是大哥 全世界都朝着异构和soc大力发展 必须全大/全小这种想法 说你们是封建党不过分吧。。。
        ...

什么时候牙膏厂出异构大小核的服务器U再扯大力发展异构cpu吧。
发表于 2024-10-26 13:43 | 显示全部楼层
yoloh 发表于 2024-10-26 13:30
什么时候牙膏厂出异构大小核的服务器U再扯大力发展异构cpu吧。

"可以专门针对不玩游戏的人单独出全小核的U"

             回复你的消费级言论你™又跟我瞎扯服务器。。。阴吹死盯。。。


果然老衲没有怼错。。。本来还想怼几下按摩店的 嗯 想想算了吧 何苦。。。
发表于 2024-10-26 14:01 | 显示全部楼层
赫敏 发表于 2024-10-26 13:09
你是不是要找:骁龙8 Elite

众小核是不可能的,核心太多通信成本会超过计算收益。服务器上的多核心都用 ...


可惜elite不是x86呢。。。消费级多小核不是那种多小核 32/64顶天了都。。。



elite刚公布那会鄙人是很看衰的 毕竟armwin要是能站起来的话上一波就起来了。。。后来细思感觉不对:

            这波armwin的前提是:多年下来 果子已经打造好arm的软件生态圈。。。
                                                现在只要win这边一旦开始提供硬平台 各种mac软件换壳就可以上架win平台。。。
                                                除了大型游戏这个基因缺陷 miniapp/minigame数量甚至可以远超x86 未来非常可期了属于是。。。
发表于 2024-10-26 14:13 | 显示全部楼层
本帖最后由 xy. 于 2024-10-26 14:14 编辑
ONEChoy 发表于 2024-10-26 14:01
可惜elite不是x86呢。。。消费级多小核不是那种多小核 32/64顶天了都。。。


即使前提实现了也没可能
apple silicon 没有使用标准的 arm 公版核, win 要是兼容这个玩意, NT 内核中处理中断控制器, pcie, iommu, 内存管理(apple 用 16K 页表) 的部分都得重写
微软表示我他吗现在 x86 都懒得搞
发表于 2024-10-26 14:45 | 显示全部楼层
ykdo 发表于 2024-10-26 10:24
楼主故意避轻就重,故意嘎吹U2而贬低zen5。U2核间延迟确实低于zen5,但是U2的内存延迟高于zen5楼主怎么不说 ...

这代塞的东西真的多估计优化不过来了。这延迟很难绷的住。
昨天晚上已经看见9333g2 mt速度2600 aida64 139g复制58ns延迟的成绩了。比纯自动的8400xmp提升大多了。
理论上上限是提了 吃鸡50人roll点,永劫5倍体 天际线是比149要好一点的。实际并不是这样。是架构或者工艺翻车(149ks关超功耗等于285k)还是优化跟不上就不知道了。
真心想买15代还是618再说一个是可以弄清楚是不是优化问题另一个是15代怎么玩也有思路了。
发表于 2024-10-26 14:50 来自手机 | 显示全部楼层
xy. 发表于 2024-10-26 14:13
即使前提实现了也没可能
apple silicon 没有使用标准的 arm 公版核, win 要是兼容这个玩意, NT 内核中处 ...

退10000步讲 原生x86软件都可以在armwin转译跑 你说这些轻兼容 洒洒水啦。。。
              关键点在于三哥这锅咖喱会怎么煮了 看玛莎拉能不能管够了。。。
发表于 2024-10-26 15:17 | 显示全部楼层
yy323818 发表于 2024-10-26 11:44
咱确实没有去吹任何一家U,U2的内存延迟我都说了啊,大核80NS,小核120NS,两家都是外置内存控制器,谁又 ...

平和心态没错,但是你没说U2内存延迟比zen5慢啊大姐。两家比的话U2优点少缺点多,比9950X总体还是差一些。
发表于 2024-10-26 15:18 | 显示全部楼层
tengyun 发表于 2024-10-26 11:51
U2的内存延迟要接近100NS了
游戏性能倒退到12代。

这种级别的U,视频编码的优势忽略不计好吧。要是初级U的话,I家视频编码确实是一大优势。
发表于 2024-10-26 15:20 | 显示全部楼层
PolyMorph 发表于 2024-10-26 14:45
这代塞的东西真的多估计优化不过来了。这延迟很难绷的住。
昨天晚上已经看见9333g2 mt速度2600 aida64 13 ...


这种接口只用一代的腊鸡,懒得玩。自我卖掉X299以来,再也提不起玩日益拉跨的牙膏板U的兴趣
发表于 2024-10-26 15:33 | 显示全部楼层
本帖最后由 tengyun 于 2024-10-26 15:34 编辑
ykdo 发表于 2024-10-26 15:18
这种级别的U,视频编码的优势忽略不计好吧。要是初级U的话,I家视频编码确实是一大优势。 ...


不一样的。
PR实时预览优势 I家 独一档。
要是没这个核显,U200讲实话 可买性又低了一分。
发表于 2024-10-26 16:08 | 显示全部楼层
抢不到285K,没忍住,入了265K,到手了,只能说风冷生产力党狂喜,应该再等等入285K的。
发表于 2024-10-26 16:31 | 显示全部楼层
本帖最后由 赫敏 于 2024-10-26 03:35 编辑
KazamiKazuki 发表于 2024-10-25 23:55
200M级别的SRAM成本简直不敢想象


7950x3D有144MB SRAM也很便宜啊,9684x有超过1G SRAM咸鱼也就卖一万多。SRAM已经是成本最低的逻辑芯片了
发表于 2024-10-26 17:03 | 显示全部楼层
本帖最后由 generalshepherd 于 2024-10-26 17:19 编辑
dcl2009 发表于 2024-10-26 12:11
四级缓存意义不大,瓶颈在CCD-IOD带宽

或者你的意思是两个CCD中间放一块4级缓存?那4级缓存怎么跟三级缓 ...


来年1月的Strix Halo就会有物理层和协议层双重提升

CCD-IOD互联采用先进封装已经肯定的,传闻也会提高CCX-IF的位宽一倍 (32B+16B > 64B+32B ?)


相比L4,AMD反而应该会利用X3D/SOIC技术把L3由CCD分离出去,做一片大L3底片 (L3D),两块或更多的CCD堆叠在上面,不同CCD的核心共享一组大L3。提高CCX核心数上限,降低出现跨CCX延迟问题的SKU组合

举例说有片长条形L3D,两排8个节点,共16个节点,每个节点有8MB L3 block,在这片L3D由ring连接起来,共128MB L3。CCD每核心留个1MB L3 block,作为与L3D的L3 clock的垂直连接点。两块8C CCD垂直堆叠在L3D上面,这样就是个原生16C+144MB L3 CCX。
 楼主| 发表于 2024-10-26 17:21 来自手机 | 显示全部楼层
generalshepherd 发表于 2024-10-26 17:03
来年1月的Strix Halo就会有物理层和协议层双重提升

CCD-IOD互联采用先进封装已经肯定的,传闻也会提高CC ...

这个技术要是能实现,核间的通信,和模块间的通信,确实是解决了,缓存在下面,核心在上面,就怕积热。有点闪存芯片3D堆叠的意思
发表于 2024-10-26 17:25 | 显示全部楼层
generalshepherd 发表于 2024-10-26 17:03
来年1月的Strix Halo就会有物理层和协议层双重提升

CCD-IOD互联采用先进封装已经肯定的,传闻也会提高CC ...

L3共享更像是x3d的演化版本,并不能完全解决跨CCD延迟问题,相当于一部分L3分出去挂在单独的环上,双环架构有利有弊,希望利大于弊。这种架构对多CCD是个灾难,因为环上频率肯定不高,还不如每个CCD上贴一片全速3d缓存。要不Intel早就爆ring了。

IF总线升级倒是值得期待,单CCD吃不满内存带宽真是捉急
发表于 2024-10-26 18:09 | 显示全部楼层
yy323818 发表于 2024-10-26 17:21
这个技术要是能实现,核间的通信,和模块间的通信,确实是解决了,缓存在下面,核心在上面,就怕积热。有 ...

我的想法其实也就是现在的MI300X,MI300X的IOD就有各种IO和256MB缓存,上面能堆疊两块XCD,或三块Zen4 CCD



积热问题才不用担心,因为CCD在最上面能直触IHS,才是解决过去L3D在CCD上面,做了保温盖的问题

9550pro在推特最新的推文,似乎就是说9000X3D把L3D和CCD上下反转了, 得以大幅提高boost clock
发表于 2024-10-26 18:45 | 显示全部楼层
本帖最后由 generalshepherd 于 2024-10-26 19:17 编辑
dcl2009 发表于 2024-10-26 17:25
L3共享更像是x3d的演化版本,并不能完全解决跨CCD延迟问题,相当于一部分L3分出去挂在单独的环上,双环架 ...


現在的Zen3 Zen4 X3D,ring在CCD L3里。L3D的L3应该是沒有ring,只是CCD上每个L3 block的垂直延伸

我提出的想法并没有双环的概念,只是把L3D和CCD上下反转,L3D做在底下,ring也在L3D的L3里,L3D的尺寸是能堆叠两块CCD在上面的大小。CCD里不会有ring,CCD的每个Core+L2+L3变成在L3D的L3 block上面的垂直延伸。

ring/L3频率在zen这边基本不需要在意。zen1就说了L3频率=CCX內最高核心频率。 Zen3才引入了ring,但从来没有能监测到ring频率存在,倒是L3频率依然存在。

16个节点应该就是ring架构的可接受上限,Turin-D的CCX就是16个Zen5C,长条型状应该说明还是ring架构。 Raptor-Lake也有14个节点 (8个P核+4个E簇+iGPU+Uncore)。之前文件流出說Zen6 CCX上限可达32C应该只限于伺服器,就不猜测了。消费级产品应该还是会停留在16核。


或者简单一点,试想像一个MI300X的256MB IOD,在上面堆叠2-3块CCD。CCD不再有L3,但L2由所有CCD内核心共享(像ARM一样)。2-3块CCD共享下面IOD的256MB L3。这样较简单,也维持了只需三级缓存结构。
发表于 2024-10-26 20:13 | 显示全部楼层
小核是全新的,会慢慢加各种指令,就演变成大核了.
发表于 2024-10-26 21:51 | 显示全部楼层
generalshepherd 发表于 2024-10-26 18:45
現在的Zen3 Zen4 X3D,ring在CCD L3里。L3D的L3应该是沒有ring,只是CCD上每个L3 block的垂直延伸

我提 ...

你的想法应该是想做全MESH。

其实L3也是分区的,每个内核对着一小块L3,其他的L3需要通过总线来访问,Intel/AMD都是这种架构,都是8个核心挂同一个总线。要解决这个问题只有做全MESH,目前成本太高,核多了MESH网也会爆炸,推进缓慢。

来张图吧,x3d是这么实现的,通过过孔直接把缓存接到总线上,而且是每一个核心对应一个独立节点。

捕获.JPG
发表于 2024-10-30 14:02 | 显示全部楼层

其实还有一个延迟很多人没有考虑 就是任务从大核搬到小核切换时的延迟
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 05:40 , Processed in 0.012705 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表