找回密码
 加入我们
搜索
      
查看: 14322|回复: 41

[PC硬件] 22年后英特尔放弃了超线程!Lunar Lake架构深度解析

[复制链接]
发表于 2024-6-7 12:43 | 显示全部楼层 |阅读模式
22年后英特尔放弃了超线程!Lunar Lake架构深度解析


2024-06-05 19:27:47 来源: PChome电脑之家 北京  
新一代酷睿Ultra处理器Lunar Lake正式亮相
6月4日,在中国台北举行的COMPUTEX 2024展前发布会上,英特尔正式公布了新一代的AI PC处理器,也就是第二代酷睿Ultra中的移动版,代号为Lunar Lake的超低功耗处理器。



要知道,酷睿Ultra(Meteor Lake)是去年12月正式发布的,距今不过半年时间,彼时,酷睿Ultra以开创性的分离式模块架构,成为英特尔客户端SoC历史上40年来的重大变革。我们以为这种架构至少会延续一段时间,最起码不应该变得这么快,但从公布的Lunar Lake架构细节来看,信息量巨大,英特尔堪称在革自己的命,比如自2002年首次推出的超线程技术不再使用,比如首次将内存集成到封装内,比如Metor Lake的低功耗能效核心LP E只存活了一代…具体细节请看我们接下来的详细解析。



首先说明一点,Lunar Lake是针对轻薄笔记本、掌机类产品设计的,侧重于低功耗、高效能以及增强的AI能力,设计功耗(TDP)仅有17瓦。根据英特尔的路线图,后续的高性能移动版以及桌面版尚在开发中,Arrow Lake、Panther Lake还需要等待一段时间。
全新性能核心砍掉超线程 E核当P核用
Lunar Lake延续了Meteor Lake的分离式模块架构,采用3D Foveros 封装技术,但唯一的不同是:处处不同。Lunar Lake是一个全方位创新的新一代平台,无论是计算部分、还是控制部分、以及AI部分都发生了巨大的变化。简单来说:Lunar?Lake的整体功耗相比上代下降了40%;核芯显卡的游戏和图形性能提高1.5倍;全新的NPU性能达前代4倍,平台AI算力高达120TOPS。?



先来看看整个芯片架构中的Compute Tile,也就是计算模块。首先,制造工艺升级为Intel 20A(台积电N3B制程),这也是英特尔“四年五制程节点”计划中的预定推进时间。



计算模块仍然采用混合架构设计,包含8个核心,4个性能核(P核)和4个能效核(E核),不再设有LP E,也就是低功耗能效核心,并且Lunar Lake只会提供这个规格的核心组合。



全新的性能核代号Lion Cove,首要的一个变化就是取消了超线程,也就是说英特尔自2002年发布超线程技术以来,首次在主流处理器平台上去掉了这个设置,原因也很简单,通过架构优化,在取消超线程的设置下,性能功耗比反而提升了,而且还提升了性能晶片尺寸比。当然,超线程就没有存在的必要了。



这也符合Lunar Lake的设计理念:去除任何对产品没有贡献的晶体管,以达到最高能效。Lion Cove着重优化了每瓦性能,这是衡量能效比的重要指标。它有2.5MB的L2缓存以及12MB的共享L3缓存,主要用来帮助实现出色的单线程性能。同时,这种微架构的突破为后续几代的P核设计奠定了新的基础。新的设计让性能核心实现了高达14%的代际性能提升,同时实现了更低的功耗。



全新的能效核心(Skymont)则是另外一种设计理念,Intel希望让E核能够涵盖更多的日常算力要求,日常应用、非极端重载的情况下,甚至不希望P核运行,从而降低能耗。所以Lunar Lake的E核是按照与Raptor Lake的P核性能相当的目标去设计的,同时还要保持E核级别的能效水平。



从12代酷睿之后的几代芯片中,E核已经被证明是比超线程更高效的一种多线程加速手段,也就是说如果要追求多线程性能,与其赋能超线程,不如去提高E核的能效。
在Lunar Lake上,这4个能效核有4MB的L2共享缓存,与Meteor Lake的LP E核心相比,能提供2倍的单线程性能和4倍的多线程性能,而且它增加了AI向量计算的吞吐量,使得其能够用于处理复杂的AI计算任务。



Skymont提高了核内并行处理能力,并在此基础上优化了能耗。和Raptor Lake的P核相比,IPC性能提高了2%,如果与Meteor Lake的LP E核相比,整数性能提升38%,浮点性能提升68%,非常可观。



功耗方面,和Meteor Lake的LP E核相比,Skymont仅用1/3的功耗就取得了一样的性能。因为Raptor Lake功耗涵盖的范围更广,可以跑在非常高的功耗区间,所以其绝对性能还是会超过Skymont,但Lunar Lake是面向移动端的产品,所以功耗范围是低于Raptor Lake的。因此在日常工作负载时,Skymont的性能表现相当领先,同样的性能下功耗只有Raptor Lake P核的60%,同功耗下,性能又比Raptor Lake的P核高出20%。



并且,Skymont核心的微架构是灵活的,Lunar Lake上只是4核心的配置,但在不久的将来,其它产品线,如桌面级处理器都会采用Skymont微架构。所以Skymont微架构的设计初衷不仅是低核心数,它也是非常适合于多核心的部署,这个架构是有延展性的。



通过以上的分析,我们不难发现Lunar Lake的性能核和能效核的设计形成了巧妙的互补,因为二者的完美协作,在广泛的任务当中能够既能体现它的性能优势,又能节省更多的功耗,帮助笔记本获得更长的续航时间。在较低功耗的区间,E核的性能实际上更强,但P核的功率上限更好,性能宽度拉得更极致。因此尽管P核取消了超线程,整个处理器的线程数量减少了,但Lunar Lake仍然能够取得多核性能的提升。



在性能核与能效核的调度方面,英特尔Lunar?Lake中的硬件线程调度器(Intel Thread Director)也有改进与优化,带来了动态调度策略、增强算法、更精细的控制,EEM也有更大的定制范围。硬件线程调度器会充分考虑能效,如工作负载合适将优先分配给单能效核,多线程时进行能效核扩展,再根据需求引导至性能核。同时配合操作系统隔离区、加强电源管理等设计,也可以提高能效。
率先采用Xe2架构GPU图形性能与AI双提升
接下来,我们来看看Lunar Lake的GPU部分,自Meteor上首次使用锐炫独显同源的Xe-LPG架构后,核芯显卡的性能有了明显的提升,这次Lunar Lake更加勇猛,甚至先于锐炫独显就用上了新一代的Xe2 GPU微架构。



代号为Battlemage的全新GPU设计结合了两项创新技术:Xe2 GPU核心用于图形处理、Xe矩阵扩展(XMX)阵列用于人工智能。



Xe2 GPU提供了8个Xe核心,同时还有8个光线追踪单元,和上一代相比,游戏和图形性能提高了1.5倍。全新的XMX矩阵扩展单元作为第2个AI加速器,可以提供高达67 TOPS的性能,为AI内容创作提供出色的吞吐量,能够为人工智能应用在集显上运行提供更好的性能。
总结来说,全新的Xe集显加上软件优化,与上一代相比图形性能提升超过50%,同时在人工智能的计算方面,有着3.5倍的提高。



除此之外,Lunar Lake也提供了非常好的视觉体验,全新设计了显示和媒体部分。媒体引擎增加了H.266,也就是VCC(多功能视频编码),VVC的优势在于降低比特率并保持同等画质,从而减少文件大小和传输压力,可自适应分辨率码率,更加灵活,还支持屏幕内容编码流(SCC)、360度全景码流。



显示部分,全新显示引擎可支持HDMI?2.1、DP?2.1、eDP?1.5,支持三路显示,低功耗的eDP可以确保能效核高质量的显示性能。Lunar Lake还提升了IPU影音处理单元的能力,主要提供了增强型的时域噪声抑制,以及多帧静态处理和改进的双重曝光校错HDR。
史上最强的AI算力 NPU性能提高3倍
既然是第二代AI PC,那么NPU自然是另一个重点。Lunar Lake上的NPU被命名为NPU 4.0,对,不是2.0而是4.0,因为事实上2018年的神经网络单元就是NPU的1.0版本。





全新的NPU 4与上一代的Meteor Lake相比,性能大幅提高3倍之多,算力达到48TOPS。英特尔表示Lunar Lake的NPU 4是“面向AI PC的最大的集成和专用AI加速器”。



NPU 4拥有12个用作向量计算的增强SHAVE?DSP,6个带有缓存的神经计算引擎,支持原生激活功能和数据转换以及大语言模型的嵌入标记化。新的NPU架构级效率提升,使得英特尔大规模人工智能战略向前又跨出了一大步。



当然,AI计算不能只靠NPU,Lunar Lake的AI性能仍然聚合了GPU、CPU与NPU的多元算力,把所有的XPU加在一起,一共可以提供高达120 TOPS的算力。通过三种XPU不同的性能特点,Lunar Lake能够使得所有的AI应用、用例得到完美的支持。这意味着更多参数的大模型可以在本地运行,更重负载的AI应用也能有更大的发挥空间。Lunar Lake将成为AI PC更强大的基石。
首次使用封装级内存 先进的平台控制模块
Lunar Lake还有另外一个极其重要的特性——封装级内存。通过使用新的MoP(Memory on Package)封装技术将内存芯片首次集成到SoC中,2颗内存容量最高32GB,支持LPDDR5x,每个芯片最高8.5GT/s(8500MHz),支持4个16bit通道。



由于内存就在SoC内部,因此缩短了内存走线,可以将Memory的物理功耗降低高达40%,这将带来更好的功耗表现,同时对于AI和图形性能的提升也有帮助。MOP还可以减少内存占用面积,从而使得PCB的层数能够降低,降低电路板设计的复杂性。
不过但要注意的是,使用MoP后,就不再支持外接内存,也就是笔记本的内存就是固定容量,不能再扩展了。



特别的是,Lunar Lake上首次引入了内存侧的缓存区(Memory side cache),用来提升系统效率和系统性能。它有8MB的物理缓存,能够把一些经常使用的数据缓存在这里,以减少对DRAM的访问,降低功耗,提高反应速度。同时,还可以缓存一些IO引擎,缓存区是高度可配置的,允许在引擎之间动态分配,适用于不同的应用。



Lunar Lake的平台控制模块(Platform Controller tile)也是一大亮点,集成了PCIe 5.0/4.0控制器、雷电4控制器、USB控制器、Wi-Fi与蓝牙控制器、安全引擎等,重点在连接性方面进行了提升。Lunar?Lake提供最多4条PCIe 5.0、4条PCIe?4.0总线通道,支持Wi-Fi 7(5G Gig),支持蓝牙5.4,支持雷电4及雷电共享技术。计算模块与平台控制模块通过可扩展第二代交叉总线以及D2D界面互联,另外Lunar?Lake还集成4个电源控制器,可实现增强遥测,可动态调节电压。Lunar Lake的电源管理架构也有了变化,独立的PMIC与全新的能效核心、增强的英特尔硬件线程调度器、内存侧缓存等一起,优化了能效,实现了整个SoC的既定设计目标。
变革之后是更大的变革 一切皆可再超越
去年发布的英特尔Meteor Lake平台,无论是技术层面,还是AI层面,都足以在英特尔的历史中成为浓墨重彩的一页,只是没想到,仅仅半年之后,英特尔就开始革自己的命,创新之上在创新,全新的Lunar Lake变化之大令我们感到惊讶。



也许正如英特尔公司创始人戈登·摩尔先生在2015年说的那句话一样,“WHATEVER HAS BEEN DONE, CAN BE OUTDONE”,超越永无止境,AI时代,一切才刚刚开始。



据悉,Lunar Lake目前已经进入晶圆和芯片量产阶段,将在第三季度正式发布。Lunar Lake将为来自20家OEM的80多款AI PC提供动力。英特尔预计在今年交付超过4000万片英特尔酷睿Ultra处理器。



当下,对于英特尔来说,还有另外一个最重要的事情就是持续加强与操作系统、ISV厂商、大模型厂商以及开发者们的合作,继续推动AI PC的生态建设,确保大模型以及软件能够在英特尔的GPU和NPU上有更深层的优化,以带给用户更好的体验。毕竟AI PC这个赛道上,AMD、高通都也在发力,千帆竞发,谁能勇立潮头?我们拭目以待!




发表于 2024-6-7 14:33 | 显示全部楼层
能赶上m3 air的续航么……
发表于 2024-6-7 14:34 | 显示全部楼层
有小核,不需要超线程的意思?
发表于 2024-6-7 14:39 | 显示全部楼层
intel被逼的换了一管牙膏了.....
发表于 2024-6-7 15:09 | 显示全部楼层
不就是抄的苹果arm架构么,表明之前路线彻底失败
发表于 2024-6-7 15:57 | 显示全部楼层
浓眉大眼的intel,不会也集成内存分高低端,不能自己加内存抢钱吧??
发表于 2024-6-7 16:20 | 显示全部楼层
trashgod 发表于 2024-6-7 15:57
浓眉大眼的intel,不会也集成内存分高低端,不能自己加内存抢钱吧??

卖缓存吃相都这么难看了,还要卖内存,把客户都推给AMD吗?
发表于 2024-6-7 16:23 | 显示全部楼层
9代处理器也放弃过,不过后来几代加回来了
发表于 2024-6-7 16:48 | 显示全部楼层
表明之前路线彻底失败
发表于 2024-6-7 17:01 | 显示全部楼层
又臭又长,最后上市实测又是云升级
发表于 2024-6-7 17:06 | 显示全部楼层
为什么没有超线程,是不喜欢吗
发表于 2024-6-7 17:37 | 显示全部楼层
trashgod 发表于 2024-6-7 15:57
浓眉大眼的intel,不会也集成内存分高低端,不能自己加内存抢钱吧??

16G或32G对于轻薄本足够了
发表于 2024-6-7 17:53 | 显示全部楼层
一剑再倾心 发表于 2024-6-7 17:37
16G或32G对于轻薄本足够了

不是够用不够用的问题,就怕杀猪价。参考apple卖的金子配置。。。
发表于 2024-6-7 19:31 | 显示全部楼层
trashgod 发表于 2024-6-7 17:53
不是够用不够用的问题,就怕杀猪价。参考apple卖的金子配置。。。

对,就怕这一点。
水果是真心黑,说自己的8GB运存等效甚至超过对手的16GB运存;自己的256GB ROM比对手的512GB/1TB的ROM好!然后标高了价格去卖。
发表于 2024-6-7 19:36 | 显示全部楼层
是不是考迪克跑到intel去了?反正整死东家就能拿一大笔分手费
发表于 2024-6-7 19:54 | 显示全部楼层
有人能分享一下这个集成的NPU都给什么场景的运算加速了吗?

还有,Xe2的独显跑哪去了
发表于 2024-6-7 19:57 | 显示全部楼层
终于符合直觉了……
发表于 2024-6-7 22:33 | 显示全部楼层
经典田忌赛马
发表于 2024-6-8 02:10 | 显示全部楼层
没兴趣, 什么时候ARROW LAKE出来?
发表于 2024-6-8 10:37 | 显示全部楼层
还记得小时候看电视的广告语:
联想XXX台式电脑使用的是含超线程处理技术的英特尔奔腾4处理器
发表于 2024-6-8 13:21 | 显示全部楼层
不错,第一代先等等,良好的话下一代入手
发表于 2024-6-8 15:24 | 显示全部楼层
硬件上感觉提升了,但是系统软件呢? 这逼win11 连个睡眠休眠策略都做不好。 搞个der啊
发表于 2024-6-8 18:02 | 显示全部楼层
看文章 是革命性的产品,出来买一台试试
发表于 2024-6-8 21:54 | 显示全部楼层
PPT做得再好,也要用了才知道。
发表于 2024-6-9 08:45 | 显示全部楼层
依稀记得当初酷睿的Core架构革奔腾的Net Burst命起了翻天覆地的变化。
发表于 2024-6-9 11:24 | 显示全部楼层
极度深寒 发表于 2024-6-7 19:31
对,就怕这一点。
水果是真心黑,说自己的8GB运存等效甚至超过对手的16GB运存;自己的256GB ROM比对手的5 ...

怎么说呢,我用M1 MAX 32G内存,做AE动画。预览很快。输出工程也很快,就是那个进度条是你肉眼可见的速度在动。反观WIN平台,同样的32G内存,显卡用了3070 还有8G显存。预览有点快,输出工程的进度条不用鼠标比着看不出来动,而且剩余时间会随着时间的推移越来越长。。。还有可能崩溃
做视频来说,苹果说的这个概念还真没错。
发表于 2024-6-9 16:27 | 显示全部楼层
rn84 发表于 2024-6-9 11:24
怎么说呢,我用M1 MAX 32G内存,做AE动画。预览很快。输出工程也很快,就是那个进度条是你肉眼可见的速度 ...

但这不是你8GB运存卖得比32GB运存还要贵的理由,你运存颗粒和其他运存是一样的,不存在什么革命性的重大进步。同理,256GB的ROM如果要升级到512GB或者1TB,价格更是天价,莫非你用的ROM颗粒是来自天顶星的科技吗??
不过喜欢买水果产品的估计也不感冒这些价差,毕竟都是不缺钱的主,所以在这一点上我还是喜欢苹果的,因为苹果从不坑穷人!
发表于 2024-6-10 00:05 | 显示全部楼层
极度深寒 发表于 2024-6-9 16:27
但这不是你8GB运存卖得比32GB运存还要贵的理由,你运存颗粒和其他运存是一样的,不存在什么革命性的重大 ...

但统一内存的好处,目前只有苹果独占。对于吃内存和显存的行业来说。这玩意儿没有竞争对手,而且也确实更经济,毕竟24G显存的显卡也很贵啊。你就当买显存了。这样看就不觉得贵了啊。
发表于 2024-6-10 00:07 | 显示全部楼层
极度深寒 发表于 2024-6-9 16:27
但这不是你8GB运存卖得比32GB运存还要贵的理由,你运存颗粒和其他运存是一样的,不存在什么革命性的重大 ...

你说的rom是固态吗?就我所知道的。M1 MAX 直接512起步,增加到1T是+1500,到2T是+1500.也就是说从512升级到2T的固态,要加价3000,这个确实贵。但正因为它贵,所以小黄鱼上有一堆近新的机器,带AC保修的二手在买,更何况现在也能找第三方增大硬盘了。。这个基本上也就和WIN平台持平了。
发表于 2024-6-10 09:21 | 显示全部楼层
本帖最后由 asukahan 于 2024-6-10 09:31 编辑
极度深寒 发表于 2024-6-9 16:27
但这不是你8GB运存卖得比32GB运存还要贵的理由,你运存颗粒和其他运存是一样的,不存在什么革命性的重大 ...


我从Powerbook G4时代开始把苹果当Lifestyle的方式来用,一直到现在基本没断代,对于苹果电脑有点发言权。

苹果从一开始就是这个定位,最早的G4钛合金的我当时在香港买4W港币起步价6W5成交,对比现在来说,现在价格算是亲民的。你如果以性价比要求苹果,只是因为他现在的定位到大众消费层级,有些东西定价看起来有点奇怪,但是如果你从一开始买苹果,而不是从iphone时代才开始接触苹果,你其实会有心理准备。90年代当时单位买的话,一台商标还叫legend的联想1万,一台苹果15万是很平常的事,同档次同CPU的PowerPC的IBM机器接口多点还要比苹果贵点。

你说同样颗粒同样东西放到苹果上跟PC上不一样,如果你了解商用领域,这太平常不过了,同一个内存颗粒在不同牌子不同服务器厂商价格天壤之别,比例比苹果的这个高多了,高端的还会锁品牌,不通用。归根结底是兼容性的问题。有些东西不能只以眼睛看到的指标为准,Silicon Lottery这件事在任何领域都有。当时我的双机热备集群,换Dell就没事,换浪潮就炸,一模一样的配置,没办法。

性价比这个事,从一开始就是用来比对显性指标的,隐性指标无法在性价比上体现。一辆BYD性价比无敌,只是因为受众群体所观察的显性指标明显,放到国外成熟汽车市场之后,不得不改变筷子悬架以适应更加犀利的眼光,价格也就随之上去了。

苹果的专业程度很高,同期IBM的Yamato Lab大和实验室做出来的机型,PC,比苹果还贵,就是因为专业程度有过之无不及。但是如果拿同CPU的Acer的机器来对比,不到1/3的价格就能买到,但你买不到看不到的隐性价值。

当然苹果也维持了高毛利率,这也是领域内高端品牌常用的做法,卡宴上选块表加价35000,GT3后座选装拆了不要后座,要加6500欧元,;宾利一个下摆臂7500人民币,卡宴4000,途锐1980,这三个件是一模一样的编号,一模一样的零件。一个意思,同意你就弄,不同意就不弄,不必和大众途锐的件来比对价格,这是商业策略的问题,也是品牌定位的问题。

还是那句话,买自己需要的,如果你觉得贵,可能还是你不太需要这玩意。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-6-23 12:23 , Processed in 0.016396 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表