22年后英特尔放弃了超线程！Lunar Lake架构深度解析

mj_majun · 发表于 2024-6-7 12:43

22年后英特尔放弃了超线程！Lunar Lake架构深度解析

2024-06-05 19:27:47　来源: PChome电脑之家

北京举

新一代酷睿Ultra处理器Lunar Lake正式亮相

6月4日，在中国台北举行的COMPUTEX 2024展前发布会上，英特尔正式公布了新一代的AI PC处理器，也就是第二代酷睿Ultra中的移动版，代号为Lunar Lake的超低功耗处理器。

要知道，酷睿Ultra（Meteor Lake）是去年12月正式发布的，距今不过半年时间，彼时，酷睿Ultra以开创性的分离式模块架构，成为英特尔客户端SoC历史上40年来的重大变革。我们以为这种架构至少会延续一段时间，最起码不应该变得这么快，但从公布的Lunar Lake架构细节来看，信息量巨大，英特尔堪称在革自己的命，比如自2002年首次推出的超线程技术不再使用，比如首次将内存集成到封装内，比如Metor Lake的低功耗能效核心LP E只存活了一代…具体细节请看我们接下来的详细解析。

首先说明一点，Lunar Lake是针对轻薄笔记本、掌机类产品设计的，侧重于低功耗、高效能以及增强的AI能力，设计功耗（TDP）仅有17瓦。根据英特尔的路线图，后续的高性能移动版以及桌面版尚在开发中，Arrow Lake、Panther Lake还需要等待一段时间。

全新性能核心砍掉超线程 E核当做P核用

Lunar Lake延续了Meteor Lake的分离式模块架构，采用3D Foveros 封装技术，但唯一的不同是：处处不同。Lunar Lake是一个全方位创新的新一代平台，无论是计算部分、还是控制部分、以及AI部分都发生了巨大的变化。简单来说：Lunar?Lake的整体功耗相比上代下降了40%；核芯显卡的游戏和图形性能提高1.5倍；全新的NPU性能达前代4倍，平台AI算力高达120TOPS。?

先来看看整个芯片架构中的Compute Tile，也就是计算模块。首先，制造工艺升级为Intel 20A（台积电N3B制程），这也是英特尔“四年五制程节点”计划中的预定推进时间。

计算模块仍然采用混合架构设计，包含8个核心，4个性能核（P核）和4个能效核（E核），不再设有LP E，也就是低功耗能效核心，并且Lunar Lake只会提供这个规格的核心组合。

全新的性能核代号Lion Cove，首要的一个变化就是取消了超线程，也就是说英特尔自2002年发布超线程技术以来，首次在主流处理器平台上去掉了这个设置，原因也很简单，通过架构优化，在取消超线程的设置下，性能功耗比反而提升了，而且还提升了性能晶片尺寸比。当然，超线程就没有存在的必要了。

这也符合Lunar Lake的设计理念：去除任何对产品没有贡献的晶体管，以达到最高能效。Lion Cove着重优化了每瓦性能，这是衡量能效比的重要指标。它有2.5MB的L2缓存以及12MB的共享L3缓存，主要用来帮助实现出色的单线程性能。同时，这种微架构的突破为后续几代的P核设计奠定了新的基础。新的设计让性能核心实现了高达14%的代际性能提升，同时实现了更低的功耗。

全新的能效核心（Skymont）则是另外一种设计理念，Intel希望让E核能够涵盖更多的日常算力要求，日常应用、非极端重载的情况下，甚至不希望P核运行，从而降低能耗。所以Lunar Lake的E核是按照与Raptor Lake的P核性能相当的目标去设计的，同时还要保持E核级别的能效水平。

从12代酷睿之后的几代芯片中，E核已经被证明是比超线程更高效的一种多线程加速手段，也就是说如果要追求多线程性能，与其赋能超线程，不如去提高E核的能效。

在Lunar Lake上，这4个能效核有4MB的L2共享缓存，与Meteor Lake的LP E核心相比，能提供2倍的单线程性能和4倍的多线程性能，而且它增加了AI向量计算的吞吐量，使得其能够用于处理复杂的AI计算任务。

Skymont提高了核内并行处理能力，并在此基础上优化了能耗。和Raptor Lake的P核相比，IPC性能提高了2%，如果与Meteor Lake的LP E核相比，整数性能提升38%，浮点性能提升68%，非常可观。

功耗方面，和Meteor Lake的LP E核相比，Skymont仅用1/3的功耗就取得了一样的性能。因为Raptor Lake功耗涵盖的范围更广，可以跑在非常高的功耗区间，所以其绝对性能还是会超过Skymont，但Lunar Lake是面向移动端的产品，所以功耗范围是低于Raptor Lake的。因此在日常工作负载时，Skymont的性能表现相当领先，同样的性能下功耗只有Raptor Lake P核的60%，同功耗下，性能又比Raptor Lake的P核高出20%。

并且，Skymont核心的微架构是灵活的，Lunar Lake上只是4核心的配置，但在不久的将来，其它产品线，如桌面级处理器都会采用Skymont微架构。所以Skymont微架构的设计初衷不仅是低核心数，它也是非常适合于多核心的部署，这个架构是有延展性的。

通过以上的分析，我们不难发现Lunar Lake的性能核和能效核的设计形成了巧妙的互补，因为二者的完美协作，在广泛的任务当中能够既能体现它的性能优势，又能节省更多的功耗，帮助笔记本获得更长的续航时间。在较低功耗的区间，E核的性能实际上更强，但P核的功率上限更好，性能宽度拉得更极致。因此尽管P核取消了超线程，整个处理器的线程数量减少了，但Lunar Lake仍然能够取得多核性能的提升。

在性能核与能效核的调度方面，英特尔Lunar?Lake中的硬件线程调度器（Intel Thread Director）也有改进与优化，带来了动态调度策略、增强算法、更精细的控制，EEM也有更大的定制范围。硬件线程调度器会充分考虑能效，如工作负载合适将优先分配给单能效核，多线程时进行能效核扩展，再根据需求引导至性能核。同时配合操作系统隔离区、加强电源管理等设计，也可以提高能效。

率先采用Xe2架构GPU图形性能与AI双提升

接下来，我们来看看Lunar Lake的GPU部分，自Meteor上首次使用锐炫独显同源的Xe-LPG架构后，核芯显卡的性能有了明显的提升，这次Lunar Lake更加勇猛，甚至先于锐炫独显就用上了新一代的Xe2 GPU微架构。

代号为Battlemage的全新GPU设计结合了两项创新技术：Xe2 GPU核心用于图形处理、Xe矩阵扩展（XMX）阵列用于人工智能。

Xe2 GPU提供了8个Xe核心，同时还有8个光线追踪单元，和上一代相比，游戏和图形性能提高了1.5倍。全新的XMX矩阵扩展单元作为第2个AI加速器，可以提供高达67 TOPS的性能，为AI内容创作提供出色的吞吐量，能够为人工智能应用在集显上运行提供更好的性能。

总结来说，全新的Xe集显加上软件优化，与上一代相比图形性能提升超过50%，同时在人工智能的计算方面，有着3.5倍的提高。

除此之外，Lunar Lake也提供了非常好的视觉体验，全新设计了显示和媒体部分。媒体引擎增加了H.266，也就是VCC（多功能视频编码），VVC的优势在于降低比特率并保持同等画质，从而减少文件大小和传输压力，可自适应分辨率码率，更加灵活，还支持屏幕内容编码流(SCC)、360度全景码流。

显示部分，全新显示引擎可支持HDMI?2.1、DP?2.1、eDP?1.5，支持三路显示，低功耗的eDP可以确保能效核高质量的显示性能。Lunar Lake还提升了IPU影音处理单元的能力，主要提供了增强型的时域噪声抑制，以及多帧静态处理和改进的双重曝光校错HDR。

史上最强的AI算力 NPU性能提高3倍

既然是第二代AI PC，那么NPU自然是另一个重点。Lunar Lake上的NPU被命名为NPU 4.0，对，不是2.0而是4.0，因为事实上2018年的神经网络单元就是NPU的1.0版本。

全新的NPU 4与上一代的Meteor Lake相比，性能大幅提高3倍之多，算力达到48TOPS。英特尔表示Lunar Lake的NPU 4是“面向AI PC的最大的集成和专用AI加速器”。

NPU 4拥有12个用作向量计算的增强SHAVE?DSP，6个带有缓存的神经计算引擎，支持原生激活功能和数据转换以及大语言模型的嵌入标记化。新的NPU架构级效率提升，使得英特尔大规模人工智能战略向前又跨出了一大步。

当然，AI计算不能只靠NPU，Lunar Lake的AI性能仍然聚合了GPU、CPU与NPU的多元算力，把所有的XPU加在一起，一共可以提供高达120 TOPS的算力。通过三种XPU不同的性能特点，Lunar Lake能够使得所有的AI应用、用例得到完美的支持。这意味着更多参数的大模型可以在本地运行，更重负载的AI应用也能有更大的发挥空间。Lunar Lake将成为AI PC更强大的基石。

首次使用封装级内存先进的平台控制模块

Lunar Lake还有另外一个极其重要的特性——封装级内存。通过使用新的MoP（Memory on Package）封装技术将内存芯片首次集成到SoC中，2颗内存容量最高32GB，支持LPDDR5x，每个芯片最高8.5GT/s(8500MHz)，支持4个16bit通道。

由于内存就在SoC内部，因此缩短了内存走线，可以将Memory的物理功耗降低高达40%，这将带来更好的功耗表现，同时对于AI和图形性能的提升也有帮助。MOP还可以减少内存占用面积，从而使得PCB的层数能够降低，降低电路板设计的复杂性。

不过但要注意的是，使用MoP后，就不再支持外接内存，也就是笔记本的内存就是固定容量，不能再扩展了。

特别的是，Lunar Lake上首次引入了内存侧的缓存区（Memory side cache），用来提升系统效率和系统性能。它有8MB的物理缓存，能够把一些经常使用的数据缓存在这里，以减少对DRAM的访问，降低功耗，提高反应速度。同时，还可以缓存一些IO引擎，缓存区是高度可配置的，允许在引擎之间动态分配，适用于不同的应用。

Lunar Lake的平台控制模块（Platform Controller tile）也是一大亮点，集成了PCIe 5.0/4.0控制器、雷电4控制器、USB控制器、Wi-Fi与蓝牙控制器、安全引擎等，重点在连接性方面进行了提升。Lunar?Lake提供最多4条PCIe 5.0、4条PCIe?4.0总线通道，支持Wi-Fi 7(5G Gig)，支持蓝牙5.4，支持雷电4及雷电共享技术。计算模块与平台控制模块通过可扩展第二代交叉总线以及D2D界面互联，另外Lunar?Lake还集成4个电源控制器，可实现增强遥测，可动态调节电压。Lunar Lake的电源管理架构也有了变化，独立的PMIC与全新的能效核心、增强的英特尔硬件线程调度器、内存侧缓存等一起，优化了能效，实现了整个SoC的既定设计目标。

变革之后是更大的变革一切皆可再超越

去年发布的英特尔Meteor Lake平台，无论是技术层面，还是AI层面，都足以在英特尔的历史中成为浓墨重彩的一页，只是没想到，仅仅半年之后，英特尔就开始革自己的命，创新之上在创新，全新的Lunar Lake变化之大令我们感到惊讶。

也许正如英特尔公司创始人戈登·摩尔先生在2015年说的那句话一样，“WHATEVER HAS BEEN DONE, CAN BE OUTDONE”，超越永无止境，AI时代，一切才刚刚开始。

据悉，Lunar Lake目前已经进入晶圆和芯片量产阶段，将在第三季度正式发布。Lunar Lake将为来自20家OEM的80多款AI PC提供动力。英特尔预计在今年交付超过4000万片英特尔酷睿Ultra处理器。

当下，对于英特尔来说，还有另外一个最重要的事情就是持续加强与操作系统、ISV厂商、大模型厂商以及开发者们的合作，继续推动AI PC的生态建设，确保大模型以及软件能够在英特尔的GPU和NPU上有更深层的优化，以带给用户更好的体验。毕竟AI PC这个赛道上，AMD、高通都也在发力，千帆竞发，谁能勇立潮头？我们拭目以待！

xutiancheng · 发表于 2024-6-7 14:33

能赶上m3 air的续航么……

mrywg · 发表于 2024-6-7 14:34

有小核，不需要超线程的意思？

flyzhuan · 发表于 2024-6-7 14:39

intel被逼的换了一管牙膏了.....

IceyHeart · 发表于 2024-6-7 15:09

不就是抄的苹果arm架构么，表明之前路线彻底失败

trashgod · 发表于 2024-6-7 15:57

浓眉大眼的intel，不会也集成内存分高低端，不能自己加内存抢钱吧？？

yEs丶He · 发表于 2024-6-7 16:20

trashgod 发表于 2024-6-7 15:57
浓眉大眼的intel，不会也集成内存分高低端，不能自己加内存抢钱吧？？

卖缓存吃相都这么难看了，还要卖内存，把客户都推给AMD吗？

idboyang · 发表于 2024-6-7 16:23

9代处理器也放弃过，不过后来几代加回来了

gylj7058 · 发表于 2024-6-7 16:48

表明之前路线彻底失败

bigmanlei · 发表于 2024-6-7 17:01

又臭又长，最后上市实测又是云升级

warm · 发表于 2024-6-7 17:06

为什么没有超线程，是不喜欢吗

一剑再倾心 · 发表于 2024-6-7 17:37

trashgod 发表于 2024-6-7 15:57
浓眉大眼的intel，不会也集成内存分高低端，不能自己加内存抢钱吧？？

16G或32G对于轻薄本足够了

trashgod · 发表于 2024-6-7 17:53

一剑再倾心发表于 2024-6-7 17:37
16G或32G对于轻薄本足够了

不是够用不够用的问题，就怕杀猪价。参考apple卖的金子配置。。。

极度深寒 · 发表于 2024-6-7 19:31

trashgod 发表于 2024-6-7 17:53
不是够用不够用的问题，就怕杀猪价。参考apple卖的金子配置。。。

对，就怕这一点。
水果是真心黑，说自己的8GB运存等效甚至超过对手的16GB运存；自己的256GB ROM比对手的512GB/1TB的ROM好！然后标高了价格去卖。

huanan1209 · 发表于 2024-6-7 19:36

是不是考迪克跑到intel去了？反正整死东家就能拿一大笔分手费

谎言之神Cyric · 发表于 2024-6-7 19:54

有人能分享一下这个集成的NPU都给什么场景的运算加速了吗？

还有，Xe2的独显跑哪去了

stlion · 发表于 2024-6-7 19:57

终于符合直觉了……

guobacoo · 发表于 2024-6-7 22:33

经典田忌赛马

liushihao · 发表于 2024-6-8 02:10

没兴趣，什么时候ARROW LAKE出来？

天上飞车 · 发表于 2024-6-8 10:37

还记得小时候看电视的广告语：
联想XXX台式电脑使用的是含超线程处理技术的英特尔奔腾4处理器

redyan9985 · 发表于 2024-6-8 13:21

不错，第一代先等等，良好的话下一代入手

alviso · 发表于 2024-6-8 15:24

硬件上感觉提升了，但是系统软件呢？这逼win11 连个睡眠休眠策略都做不好。搞个der啊

libfire2002 · 发表于 2024-6-8 18:02

看文章是革命性的产品，出来买一台试试

liho21 · 发表于 2024-6-8 21:54

PPT做得再好，也要用了才知道。

毛毛叉 · 发表于 2024-6-9 08:45

依稀记得当初酷睿的Core架构革奔腾的Net Burst命起了翻天覆地的变化。

rn84 · 发表于 2024-6-9 11:24

极度深寒发表于 2024-6-7 19:31
对，就怕这一点。
水果是真心黑，说自己的8GB运存等效甚至超过对手的16GB运存；自己的256GB ROM比对手的5 ...

怎么说呢，我用M1 MAX 32G内存，做AE动画。预览很快。输出工程也很快，就是那个进度条是你肉眼可见的速度在动。反观WIN平台，同样的32G内存，显卡用了3070 还有8G显存。预览有点快，输出工程的进度条不用鼠标比着看不出来动，而且剩余时间会随着时间的推移越来越长。。。还有可能崩溃
做视频来说，苹果说的这个概念还真没错。

极度深寒 · 发表于 2024-6-9 16:27

rn84 发表于 2024-6-9 11:24
怎么说呢，我用M1 MAX 32G内存，做AE动画。预览很快。输出工程也很快，就是那个进度条是你肉眼可见的速度 ...

但这不是你8GB运存卖得比32GB运存还要贵的理由，你运存颗粒和其他运存是一样的，不存在什么革命性的重大进步。同理，256GB的ROM如果要升级到512GB或者1TB，价格更是天价，莫非你用的ROM颗粒是来自天顶星的科技吗？？
不过喜欢买水果产品的估计也不感冒这些价差，毕竟都是不缺钱的主，所以在这一点上我还是喜欢苹果的，因为苹果从不坑穷人！

rn84 · 发表于 2024-6-10 00:05

极度深寒发表于 2024-6-9 16:27
但这不是你8GB运存卖得比32GB运存还要贵的理由，你运存颗粒和其他运存是一样的，不存在什么革命性的重大 ...

但统一内存的好处，目前只有苹果独占。对于吃内存和显存的行业来说。这玩意儿没有竞争对手，而且也确实更经济，毕竟24G显存的显卡也很贵啊。你就当买显存了。这样看就不觉得贵了啊。

rn84 · 发表于 2024-6-10 00:07

极度深寒发表于 2024-6-9 16:27
但这不是你8GB运存卖得比32GB运存还要贵的理由，你运存颗粒和其他运存是一样的，不存在什么革命性的重大 ...

你说的rom是固态吗？就我所知道的。M1 MAX 直接512起步，增加到1T是+1500，到2T是+1500.也就是说从512升级到2T的固态，要加价3000，这个确实贵。但正因为它贵，所以小黄鱼上有一堆近新的机器，带AC保修的二手在买，更何况现在也能找第三方增大硬盘了。。这个基本上也就和WIN平台持平了。

asukahan · 发表于 2024-6-10 09:21

本帖最后由 asukahan 于 2024-6-10 09:31 编辑

极度深寒发表于 2024-6-9 16:27
但这不是你8GB运存卖得比32GB运存还要贵的理由，你运存颗粒和其他运存是一样的，不存在什么革命性的重大 ...

我从Powerbook G4时代开始把苹果当Lifestyle的方式来用，一直到现在基本没断代，对于苹果电脑有点发言权。

苹果从一开始就是这个定位，最早的G4钛合金的我当时在香港买4W港币起步价6W5成交，对比现在来说，现在价格算是亲民的。你如果以性价比要求苹果，只是因为他现在的定位到大众消费层级，有些东西定价看起来有点奇怪，但是如果你从一开始买苹果，而不是从iphone时代才开始接触苹果，你其实会有心理准备。90年代当时单位买的话，一台商标还叫legend的联想1万，一台苹果15万是很平常的事，同档次同CPU的PowerPC的IBM机器接口多点还要比苹果贵点。

你说同样颗粒同样东西放到苹果上跟PC上不一样，如果你了解商用领域，这太平常不过了，同一个内存颗粒在不同牌子不同服务器厂商价格天壤之别，比例比苹果的这个高多了，高端的还会锁品牌，不通用。归根结底是兼容性的问题。有些东西不能只以眼睛看到的指标为准，Silicon Lottery这件事在任何领域都有。当时我的双机热备集群，换Dell就没事，换浪潮就炸，一模一样的配置，没办法。

性价比这个事，从一开始就是用来比对显性指标的，隐性指标无法在性价比上体现。一辆BYD性价比无敌，只是因为受众群体所观察的显性指标明显，放到国外成熟汽车市场之后，不得不改变筷子悬架以适应更加犀利的眼光，价格也就随之上去了。

苹果的专业程度很高，同期IBM的Yamato Lab大和实验室做出来的机型，PC，比苹果还贵，就是因为专业程度有过之无不及。但是如果拿同CPU的Acer的机器来对比，不到1/3的价格就能买到，但你买不到看不到的隐性价值。

当然苹果也维持了高毛利率，这也是领域内高端品牌常用的做法，卡宴上选块表加价35000，GT3后座选装拆了不要后座，要加6500欧元,；宾利一个下摆臂7500人民币，卡宴4000，途锐1980，这三个件是一模一样的编号，一模一样的零件。一个意思，同意你就弄，不同意就不弄，不必和大众途锐的件来比对价格，这是商业策略的问题，也是品牌定位的问题。

还是那句话，买自己需要的，如果你觉得贵，可能还是你不太需要这玩意。

账号		自动登录	找回密码
密码			加入我们

[PC硬件] 22年后英特尔放弃了超线程！Lunar Lake架构深度解析

浏览过的版块