找回密码
 加入我们
搜索
      
查看: 8906|回复: 39

[CPU] 还是得看IPC能不能升上来

[复制链接]
发表于 2024-5-5 17:50 | 显示全部楼层 |阅读模式
本帖最后由 indignant 于 2024-5-5 17:54 编辑

    INTEL 当初发布14900KS的时候,很多人就对此提出质疑:这6.0G的最高频率… 确定功耗和发热真的没问题吗?? 毕竟在过去很长一段时间内,CPU的甜点频率都没有超过4.5GHZ,这也符合早在1970年代,斯坦福大学的研究人员提出的 “硅基芯片的频率最终上限大约是4GHZ左右”的推论。INTEL这次是彻底玩大了,IPC升不上去频率硬拉,结果就是最高阶发烧游戏CPU 非分体式水冷摁不住,光一个CPU烤机功耗就奔着400W去的窘状。 高频率高功耗带来的必然是高发热高损耗,CPU运行的不稳定性大大增加。现今大面积出事乃是意料之中的场景。 如果下一代,下两代CPU 不能再把IPC升上去,真就没啥搞头了
    题外话说一下手机那边,不管是苹果还是高通,感觉这频率基本也到头了,A17PRO已经3.78GHZ,夏天功耗爆灯。高通下一代旗舰8GEN4 据传频率定在3.6G-4.0GHZ,GB6最大跑分2700/108XX ,这种频率,功耗是好看不了的。不知道还有多少提升空间,不过这倒是给了HUAWEI追赶的机会,现在的麒麟9010 只有2.3GHZ,GB6能跑1350,只要工艺提上来,能跑到2.8-3.0GHZ,保持或者再继续增大这个IPC,应该会很有看头和期待
发表于 2024-5-7 09:53 | 显示全部楼层
拿烤鸡功耗来制造焦虑,我的评价是有钱能不能带哥们一起赚?
发表于 2024-5-7 09:31 | 显示全部楼层
JP_ToKyo 发表于 2024-5-6 13:01
IPC上不來不要緊...
把頻率降到甜點級...然後加到16大核...OK?

确实是
INTEL急需16大核全核4.5 的处理器
(纯生产力用途)

发表于 2024-5-6 23:07 | 显示全部楼层
就当下来说,遥不可及
发表于 2024-5-6 23:01 来自手机 | 显示全部楼层
Nextime 发表于 2024-5-5 21:03
现在出来的只是Genoa到Turin classic的Power吧,从350到500W,但是是从96C到128C,而且全核心freq从3.6GH ...

epyc4全核哪有这么高,AWS上还在卖我全核2.6的9R14
发表于 2024-5-6 22:59 来自手机 | 显示全部楼层
besttime 发表于 2024-5-6 00:09
这思路不就和多年前dma操作外置到硬盘控制器一个意思么?这样做的前提是内存和cpu片内缓存的延迟差距足够 ...

有点像但并不矛盾且可一起使用,pim是让内存本身的延迟不影响CPU,且减少缓存一致性的开销

当然这听起来又像缓存,但缓存毕竟大小有限,像内存数据库这种就包不住了
发表于 2024-5-6 13:09 | 显示全部楼层
赫敏 发表于 2024-5-6 08:36
流水线效果可能一样,但是内存那边的延迟是万年不变的。所以越来越宽是肯定的,并且也会尽量利用更大的数 ...

这思路不就和多年前dma操作外置到硬盘控制器一个意思么?这样做的前提是内存和cpu片内缓存的延迟差距足够大,且经常有大量内存和片内缓存的数据交换操作。当前,mov操作主要都是cpu片内寄存器,而非内存。
发表于 2024-5-6 13:01 | 显示全部楼层
IPC上不來不要緊...
把頻率降到甜點級...然後加到16大核...OK?

趕緊叫開發聯盟搞好多線程問題...都999999999年了..還沒搞好多核運算問題(現在能用但解決不到真正的多核問題)
发表于 2024-5-6 12:53 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2024-5-6 11:50 | 显示全部楼层
indignant 发表于 2024-5-5 19:25
ZEN4的积热问题比ZEN3更严重,4.3-4.5G左右  积热是控制的较好的,5G+ 明显积热压不住了 ...

zen4 积热对单CCD超过90W以上就压不住,并且zen4 甜点频率在5.0G~5.2G左右,我7900 全核5.2G 也才不到70度
发表于 2024-5-6 11:23 | 显示全部楼层
我都开始看这俩玩意了
1714955300413.png
1714964094880.png
是水冷机组不给力了,还是压缩机不行了?
再不行不还是有液氮制冷兜底吗?
你想象不到液氮是多么的廉价...
按硬件发展趋势,1000W的显卡都能接受了,区区500W不到的CPU就受不了了?
又要低功耗,又要高性能...想啥呢?
还是那句话,49KS世界记录是9.1G,6.2g不是它的极限而是你我钱包的极限

发表于 2024-5-6 10:20 | 显示全部楼层
比较令人担心的是,这代的Arrow Lake的IPC会是类似于Haswell到skylake的迭代吗?
发表于 2024-5-6 10:03 | 显示全部楼层
PolyMorph 发表于 2024-5-6 09:14
zen5功耗提升了怎么看?

现在出来的只是Genoa到Turin classic的Power吧,从350到500W,但是是从96C到128C,而且全核心freq从3.6GHz到4GHz
发表于 2024-5-6 09:55 来自手机 | 显示全部楼层
af_x_if 发表于 2024-5-6 09:50
恭喜你,你证明了np=p

挺多np问题的前提是对输入数据不做任何假设,在实际数据上是不是np还不知道。
发表于 2024-5-6 09:53 来自手机 | 显示全部楼层
PolyMorph 发表于 2024-5-6 09:14
zen5功耗提升了怎么看?

问题是同样性能下的功耗是否提升。
发表于 2024-5-6 09:50 来自手机 | 显示全部楼层
用户 发表于 2024-5-6 09:33
处理器一项任务是输入脑补的推理过程数据,输出推理步骤是否都符合程序逻辑,不符合逻辑的部分重新预测/ ...

恭喜你,你证明了np=p
发表于 2024-5-6 09:33 来自手机 | 显示全部楼层
LambdaDelta 发表于 2024-5-6 08:58
你脑补就完了,还要什么处理器

处理器一项任务是输入脑补的推理过程数据,输出推理步骤是否都符合程序逻辑,不符合逻辑的部分重新预测/计算。验证是可以并行的。
发表于 2024-5-6 09:18 | 显示全部楼层
就是IPC上不去
但凡同频IPC增加10% (按 : 13900K IPC增加仅0.3%, 微乎其微)

5.1G的 new 13600K 强于 13600K
5.1G的 new 13700K 强于 13700K
5.1G的 new 13900K 略弱于 13900K

但是稳定性增加 + 99%
功耗下降最多40% (i9)
发表于 2024-5-6 09:14 | 显示全部楼层
zen5功耗提升了怎么看?
发表于 2024-5-6 08:58 | 显示全部楼层
用户 发表于 2024-5-6 06:09
如果你的电脑99%只跑cinebench,那么把cinebench输出背下来就完了,一步出结果。别的程序ipc低?但别的程 ...

你脑补就完了,还要什么处理器
发表于 2024-5-6 08:36 | 显示全部楼层
af_x_if 发表于 2024-5-5 10:04
流水线级数不一样,频率没什么可比的。
在我看来,多发射和细分流水线的作用和代价基本等价,通过加深流水 ...

流水线效果可能一样,但是内存那边的延迟是万年不变的。所以越来越宽是肯定的,并且也会尽量利用更大的数据类型减少数据复制频率增加吞吐量,比如现在的TPU/NPU

我觉得以后主内存分成延迟优化和带宽优化两部分也是有可能的。延迟优化可以在内存上offload几个RISV来搞定MOV,++指令来掩盖掉90%的延迟优化用户互动体验和游戏。带宽优化就是HBM之类给GPU/NPU来跑LLM
发表于 2024-5-6 08:25 | 显示全部楼层
用户 发表于 2024-5-5 17:09
如果你的电脑99%只跑cinebench,那么把cinebench输出背下来就完了,一步出结果。别的程序ipc低?但别的程 ...

那为啥还要有cinebench这个软件呢?那张图放出来大家自己去下不就好了
发表于 2024-5-6 07:24 | 显示全部楼层
本帖最后由 af_x_if 于 2024-5-6 07:26 编辑
用户 发表于 2024-5-6 01:48
ilp还没挖掘到头吗,jim keller说不是都靠branch/data prediction,就是speculative execution。

specul ...


对一个写死的程序来说,指令间并行性是固定的
但是新时代开发的程序指令间并行极限会变高以适应新时代的运行环境。

而且分支预测也是让一般来说不能并行的指令,变得可以并行罢了,程序运行又不是只输出最后一条的结果,还有整个操作过程对数据的变动。
发表于 2024-5-6 06:15 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2024-5-6 06:14 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2024-5-6 06:09 来自手机 | 显示全部楼层
本帖最后由 用户 于 2024-5-6 06:21 编辑
LambdaDelta 发表于 2024-5-6 04:46
IPC上限是程序的决定的。哪怕你资源无限,分支预测百分百,也不可能达到什么一个亿。 ...


如果你的电脑99%只跑cinebench,那么把cinebench输出背下来就完了,一步出结果。别的程序ipc低?但别的程序也从来不跑啊。

假如要所有程序上ipc都高,那自然会遇到瓶颈。优化理论上就有个no free lunch理论:如果你啥函数都想优化,那干脆瞎蒙得了,平均起来比优化算法不差。
发表于 2024-5-6 04:46 | 显示全部楼层
用户 发表于 2024-5-6 01:48
ilp还没挖掘到头吗,jim keller说不是都靠branch/data prediction,就是speculative execution。

specul ...

IPC上限是程序的决定的。哪怕你资源无限,分支预测百分百,也不可能达到什么一个亿。
发表于 2024-5-6 01:48 来自手机 | 显示全部楼层
本帖最后由 用户 于 2024-5-6 01:56 编辑
af_x_if 发表于 2024-5-5 23:04
流水线级数不一样,频率没什么可比的。
在我看来,多发射和细分流水线的作用和代价基本等价,通过加深流水 ...


ilp还没挖掘到头吗,jim keller说不是都靠branch/data prediction,就是speculative execution。

speculative execution是几乎没有上限的,如果你神来之笔一下把答案和过程一步猜中,一个cycle就全完成,ipc一个亿。
发表于 2024-5-5 23:04 | 显示全部楼层
流水线级数不一样,频率没什么可比的。
在我看来,多发射和细分流水线的作用和代价基本等价,通过加深流水线实现的高频和多发射都是在挖掘指令间并行性来提高性能。
发表于 2024-5-5 22:28 | 显示全部楼层
本帖最后由 binne 于 2024-5-5 23:22 编辑

IPC优化是有天花板的,x86指令集构建优化了这么多年了,拧毛巾,水分越拧越少,快干了。
你画一个加法器,拼到最后,还是拼频率,功耗允许,时钟越快,加法加的越快。

intel的工艺是给台式机优化的,甜点频率比amd高,单核有优势。
tsmc的工艺是给手机优化的,甜点频率比较低,但是功耗低可以堆核心数。
下一轮,看各家的GAA工艺,PowerVIA工艺
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-8-11 15:17 , Processed in 0.012172 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表