找回密码
 加入我们
搜索
      
查看: 4935|回复: 47

[内存] CPU集成的内存就非得和DIMM冲突吗?就不能两个并存?

[复制链接]
发表于 2024-6-17 08:04 | 显示全部楼层 |阅读模式
缓存都能做L1234 为啥内存就只有有一级呢
一想到内存容量被限死我就感到心如死灰
两个都保留不行吗 用户插入内存的时候片上的内存自动转为L4或者干脆屏蔽了我觉得也可以接收
发表于 2024-6-17 08:05 | 显示全部楼层
那会导致CPU针脚增加20%
发表于 2024-6-17 08:18 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 08:28 编辑

堆内存控制器很花钱啊,这么多年了msdt核心缓存都猛涨,就是通道一点没动,最近几个128bit以上的(m pro/orin/strix halo这样的)更多的是为了供GPU,弄个128bit纯lpddr+128bit纯ddr的尴尬玩意远不如根据需求直接拉成256bit的lpddr(大型SoC)/ddr(HEDT)

Grace的后继因为定位估计是堆lpddr走到死,Xeon弄些高端货搞两级内存的可能性比较大

128bit的lpddr目前覆盖到16~64G完全没有难度,对大部分人也够用了
 楼主| 发表于 2024-6-17 08:31 | 显示全部楼层
ekiuc 发表于 2024-6-17 08:18
堆内存控制器很花钱啊,这么多年了msdt核心缓存都猛涨,就是通道一点没动,最近几个128bit以上的(m pro/or ...

原来如此 那PCIE控制器也很花钱吗
发表于 2024-6-17 08:34 | 显示全部楼层
好思路,你赶快去设计芯片吧,祖国需要你这种天才
发表于 2024-6-17 08:39 来自手机 | 显示全部楼层
现在硬盘速度快一点了,苹果表示,虚拟内存很好用啊。
发表于 2024-6-17 08:39 | 显示全部楼层
做了片上的,再保留拓展口,兼容性会很难搞。

最简单的,我们举栗子,假如不做额外拓展:片上内存颗粒到IMC布线长30mm,低电压低延迟高频率还省电,贼nice

如果你加了拓展槽,我们就算拓展的内存尽量靠近CPU,撇开散热模组占用的空间,线长要到起码80mm吧?那么为了信号统一性,片上内存也需要想办法**绕绕把线长拉到80mm,假设片上绕来绕去能绕出这么长,你想想这时这一坨线挤在一起,内存信号线的抗干扰能力会有多烂,你需要更高的电压来维持信号和频率,必然丧失了原本的优势

当然,对于DIYer的成本来说肯定不是好事,很可能苹果的黄金内存价变成常态
发表于 2024-6-17 08:43 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 08:57 编辑
ttt5t5t 发表于 2024-6-17 08:31
原来如此 那PCIE控制器也很花钱吗


pcie控制器面积也不小,不过感觉这个这个大环境下比较刚需,而且堆就完事了,只要能把设备看上去都连上就行了,后面的调优是客户自己的事,这方面点名批评EPYC

个人理解两级内存现在比较尴尬的事不太找得出一个场景既有高吞吐量高带宽小内存,又有低带宽大内存这种两级的需求表现在一个SoC上,或者说能从多级存储受益的基本主要就是CPU,GPU天生对cache这类东西不敏感(当然大cache在GPU上可以怎么用也是我们现在在探索的),问题是llm大火的情况下,现在CPU就是整个加速器一个小组件,远不如显存,互联这些问题重要,除了只有CPU能看的intel,谁还会在上面整花活

还有一个就是异构内存,这玩意看起来美好,实际上工程上顶难做,实际效果就看benchmark听天由命吧,做不了一点

intel之前Xeon顶配版有64G HBM+8ch DDR,但是这玩意看起来感兴趣的并不多
发表于 2024-6-17 08:54 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 08:59 编辑
zzcgh1928 发表于 2024-6-17 08:39
做了片上的,再保留拓展口,兼容性会很难搞。

最简单的,我们举栗子,假如不做额外拓展:片上内存颗粒到IM ...


一个在基板上一个用dimm,这铁定是两种内存的异构玩意了,反倒是不用考虑这个问题
发表于 2024-6-17 08:59 | 显示全部楼层
ekiuc 发表于 2024-6-17 08:54
一个在基板上一个用dimm,这铁定是两种内存的异构玩意了,不用考虑这个问题 ...

不存在的,内存搞异构成本更高,而且本质上还是走同一个imc,总不可能做两个imc然后还得同步两头数据延迟这样吃力不讨好的事吧

要么片上一个通道,拓展一个通道,这样不拓展就是单通道,拓展以后双通道但两边延迟还不一样,为了提升兼容性时序必然一坨



发表于 2024-6-17 09:01 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-6-17 09:03 编辑
zzcgh1928 发表于 2024-6-17 08:59
不存在的,内存搞异构成本更高,而且本质上还是走同一个imc,总不可能做两个imc然后还得同步两头数据延迟 ...


phi x200和xeon max掏出了两套imc, 缓存模式下有缓存一致性

延迟不是问题, hbm缓存那边延迟比ddr更高, 目的是能提供更大带宽
发表于 2024-6-17 09:02 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 09:05 编辑
zzcgh1928 发表于 2024-6-17 08:59
不存在的,内存搞异构成本更高,而且本质上还是走同一个imc,总不可能做两个imc然后还得同步两头数据延迟 ...


怎么不存在了,inte的HBM+DDR从Xeon Phi搞到现在了,没人用是一回事,人家那是真在搞

片上不就图个功耗低好布线么(果式lpddr或者hbm),你说的那玩意我才是真没见过有人做,顶多单通道放pcb上,那跟dimm也没差多少,省个z轴空间
发表于 2024-6-17 09:03 | 显示全部楼层
ttt5t5t 发表于 2024-6-17 08:31
原来如此 那PCIE控制器也很花钱吗

抛开环形总线和mesh总线不谈,MSDT和HEDT的最大区别其实就是内存控制器和PCIE控制器规模
发表于 2024-6-17 09:06 | 显示全部楼层
ekiuc 发表于 2024-6-17 09:02
怎么不存在了,inte的HBM+DDR从Xeon Phi搞到现在了,没人用是一回事,人家那是真在搞 ...

我知道有,这不是消费级产品嘛,成本很重要,而且对产品的性能要求取向也不一样

数据中心客户愿意多花钱,而且对带宽敏感,低延迟要求相对低,可以这么搞

消费级这么搞对性能没有帮助,用户还要承担额外成本,根本不现实
发表于 2024-6-17 09:08 | 显示全部楼层
zhuifeng88 发表于 2024-6-17 09:01
phi x200和xeon max掏出了两套imc, 缓存模式下有缓存一致性

延迟不是问题, hbm缓存那边延迟比ddr更高,  ...

你讲的数据中心,需求的是高带宽,延迟不敏感

可这是消费级产品,需求是反过来的,再者高昂的额外成本谁来买单?
发表于 2024-6-17 09:10 | 显示全部楼层
为啥不把ich也整合到一起呢?
发表于 2024-6-17 09:11 | 显示全部楼层
本帖最后由 魔语者 于 2024-6-17 09:13 编辑

你买服务器级就没这些事了,消费级嘛,就为了以最低成本圈普通用户的钱而已~
发表于 2024-6-17 09:16 | 显示全部楼层
主板集成一点内存,再加扩展槽,这个模式早就有啊,而且还能组双通道。。。不过也没啥意思,一般外接只给了一根槽,还不如两个全部外接自己插的好。

要说搞多级模式,也没必要。集成的内存频率和自己插的几乎一样,没啥level差异
发表于 2024-6-17 09:17 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 09:28 编辑
zzcgh1928 发表于 2024-6-17 09:06
我知道有,这不是消费级产品嘛,成本很重要,而且对产品的性能要求取向也不一样

数据中心客户愿意多花钱 ...


前面说嘞,上基板的好处主要还是好布线+低功耗(某种意义上来说,也就是超高带宽,或者省钱),在这个前提下产生的也只会是果式的多通道lpddr的大型SoC,或者有人因为什么原因要加一个一小块类HBM的东西,8809G其实就比较贴近这玩意吧,只不过后续的技术路线并没有把HBM民用化,苹果这个舍得花钱的大户跑了,lpddr速度也来到了GPU能接受的程度

至少在llm火的这阵子,通用SoC应该是不会有这玩意了,多通道的lpddr内存又大又好实现,但是比如VR那种需要应对高带宽传感器的,搞这么个异构内存还是很有可能的吧,听说主机也有考虑弄一小截ddr跑系统的异构内存

所以相比很难想象会有单纯的在片上放一个通道,封装什么全要重新设计还没半点优势,如果你硬要扯成本,这东西更扯淡不是吗,前面那个至少看得到希望

还有一个为啥你们都说HBM延迟高,这玩意延迟也不难看吧,ddr级别的,又不是gddr……
发表于 2024-6-17 09:31 | 显示全部楼层
ekiuc 发表于 2024-6-17 09:17
前面说嘞,上基板的好处主要还是好布线+低功耗(某种意义上来说,也就是超高带宽,或者省钱),在这个前 ...

我没记错的话,intel这边HBM之前都是当显存用的

HBM走的路线是低频高带宽,延迟跟跟传统内存的延迟相比,是显著偏高的,更适合充当显存或者应用在服务器的高带宽需求环境下

我上面就讲了PC需要的是响应速度,而不是数据带宽,所以服务器那些东西直接搬过来用是不合适的,更何况成本也更高昂

为了高速响应,势必不可能存在片上内存和拓展内存之间延迟差距过大的畸形产品

以前笔记本是有板载内存+拓展内存槽的做法不错,但是板载内存和拓展内存的延迟可以很容易统一,但是片上集成的内存与拓展内存之间的线路延迟差距可太大了

本质上技术还是应该在合适的成本下服务于合适的用户
发表于 2024-6-17 09:34 | 显示全部楼层
zzcgh1928 发表于 2024-6-17 09:31
我没记错的话,intel这边HBM之前都是当显存用的

HBM走的路线是低频高带宽,延迟跟跟传统内存的延迟相比 ...

HBM延迟略高倒不是因为低频的原因, 更何况HBM3都6400, HBM3e 9200了, 频率一点都不低
发表于 2024-6-17 09:37 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 10:18 编辑
zzcgh1928 发表于 2024-6-17 09:31
我没记错的话,intel这边HBM之前都是当显存用的

HBM走的路线是低频高带宽,延迟跟跟传统内存的延迟相比 ...


intel的HBM有几种模式,但是横竖都在DDR前面一级或者同级吧

我之前研究存储的时候倒是看了几个文章,HBM和DIMM都是一个级别的(2E时期比D4 RECC略高一点,进D5之后我没留意过),甚至没有lpddr4x和ddr4的差距大,哪儿来的显著偏高一说?

话说HBM和dimm本质是一个玩意吧,只不过位宽非常高。苹果lpddr那逼延迟一个个的都受得了,Workstation上的多通道的DDR5 RECC一个个的也都受得了,甚至PS5/Xbox那个GDDR的玩意桌面用着问题也不大,到了hbm这儿受不了?

咱还不如说是成本原因嘞,这玩意确实不便宜,苹果都没用

发表于 2024-6-17 10:05 | 显示全部楼层
DDR PHY 相当占面积。   
发表于 2024-6-17 10:05 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-6-17 10:08 编辑
ekiuc 发表于 2024-6-17 09:37
intel的HBM有几种模式,但是横竖都在DDR前面一级或者同级吧

我之前研究存储的时候倒是看了几个文章,HBM ...


经常传说的hbm延迟显著偏高(包括gddr也是 可能是拿显卡hbm测的延迟和cpu测的ddr延迟去比较了, 这俩差距主要是控制器引起的, 是200-300ns和100ns左右的差距了, 都cpu测或者fpga的控制器测的情况下, hbm高个零头, 主要原因是时序要宽一点
发表于 2024-6-17 10:15 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 10:39 编辑
zhuifeng88 发表于 2024-6-17 10:05
经常传说的hbm延迟显著偏高(包括gddr也是 可能是拿显卡hbm测的延迟和cpu测的ddr延迟去比较了, 这俩差距主 ...


原来是这样,所以主要是GPU/CPU控制器的设计取向问题是吗

(话说GDDR大概的数据有吗,我这边只能测测猴版PS5 APU的数据,不知道同等条件是个什么水平


(苹果的LPDDR我记得延迟也是高别人的LPDDR一截来着,不知道是菜还是设计原因
发表于 2024-6-17 10:22 | 显示全部楼层
不管是arm还是X86,现有制程下,把LPDDR内存或者DDR大容量内存 封装在 处理器内部 现阶段是不可能实现的。把cache缓存做大已经很不错了。 缓存就是解决处理器和 DDR之间数据处理的 缓冲区域。。就算封装在一起,你能解决SOC之间互烤发热问题吗。那你要怎样,手搓一个出来?
发表于 2024-6-17 10:26 | 显示全部楼层
可以抱的萝卜 发表于 2024-6-17 08:05
那会导致CPU针脚增加20%

怎么可能,牙膏还没傻到u底部不留内存线路的地步,不然片上内存线路出了问题u就直接变废片了。
发表于 2024-6-17 10:42 | 显示全部楼层
ekiuc 发表于 2024-6-17 09:37
intel的HBM有几种模式,但是横竖都在DDR前面一级或者同级吧

我之前研究存储的时候倒是看了几个文章,HBM ...

本质是DDR多层堆叠,走的高带宽路线,但延迟确实高

我还是那句话,使用环境不同
发表于 2024-6-17 10:51 | 显示全部楼层
本帖最后由 ekiuc 于 2024-6-17 11:11 编辑
zzcgh1928 发表于 2024-6-17 10:42
本质是DDR多层堆叠,走的高带宽路线,但延迟确实高

我还是那句话,使用环境不同 ...


别本质了,hbm是ddr叠叠乐这玩意找个图就能明白。嘴硬到现在你对于hbm的数据和延迟到底是多少就没个数……延迟高是高多少?同一条件下跟ddr/lpddr/gddr比是什么水平?上面别的评论你也看看吧?

扯的方向越多越圆不回来,还低频,高响应,有那时间不如找点资料看看,哪怕看看知乎呢(不过知乎上大v觉得hbm带宽高,没法做内存的也一把)
发表于 2024-6-17 11:15 | 显示全部楼层
ekiuc 发表于 2024-6-17 10:51
别本质了,hbm是ddr叠叠乐这玩意找个图就能明白。嘴硬到现在我感觉你对于hbm的数据和延迟到底是多少就没 ...

我扯什么了???

你仔细看看我到底说了啥好吧

你讲搞异构,搞双imc,我说使用环境不同,成本也控制不住

你扯HBM,我说那玩意之前intel拿来做显存,本身更适合作缓存

HBM本身多层堆叠为了控制发热就是走的低压路线,低压低热必然使用宽松的时序,不知道你在犟什么,你说的都是对比LPDDR,那为什么LPDDR没有变成桌面主流?还不是因为延迟高

都跟你说了服务器用内存的侧重点和消费级不一样,还在那ECC、workstation,都被你懂完了

你给我讲讲哪里有问题???动不动就说别人嘴硬,我还觉得你嘴硬呢,莫名其妙
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 04:13 , Processed in 0.013645 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表