找回密码
 加入我们
搜索
      
楼主: pmax

[CPU] 嘤特尔决定做二线牙膏厂了?

[复制链接]
发表于 2024-9-3 14:17 来自手机 | 显示全部楼层
赫敏 发表于 2024-9-3 11:38
Jim现在在用CPU做AI。。。。。

不是cpu,是单独设计的npu,tensortorrent有三个产品线。。。
发表于 2024-9-3 14:19 来自手机 | 显示全部楼层
Darylyexu 发表于 2024-9-3 12:15
冷知识 ryzen就是jim keller搞得

jim负责组织团队,具体设计是Michael clark搞的。他去牙膏厂和特斯拉也干的是这个事情,结果牙膏厂根深蒂固他就拍拍屁股走人了
发表于 2024-9-3 14:34 | 显示全部楼层
牙膏解散AADG(Advanced Architecture Development Group)的消息是一个月以前的事了。牙膏现在就是个盲目跟风的,AI的噱头没起来的时候不把GPU设计当回事,然后把AADG的大部分人转去做GPU,最近股市上AI开始退烧了,这样下去吃屎都赶不上热的。

AADG的负责人Debbie Marr前一段拉了几个Royal Core的关键人物出去自组公司做RISC-V设计去了,巧的是Jim Keller现在也在鼓捣RISC-V
发表于 2024-9-3 14:46 | 显示全部楼层
农:你接下来是不是要搞什么两个核心融成一颗的玩法
发表于 2024-9-3 15:34 | 显示全部楼层
gihu 发表于 2024-9-3 12:04
老黄提前十几年布局了CUDA护城河,撞的可不是AI这波大运,而是赌将来高密度并行运算的前景。就算没有AI, ...


CUDA在AI领域并没有形成护城河,各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部署GPU而是自己定制TPU来做训练和推理。

科学计算/大规模并行计算领域,GPU确实有一席之地,但是单靠这一块市场并不能让NVIDIA走到今天的地位。甚至传统的小模型AI也不能让NVIDIA走到现在的地位,因为小模型只有训练需要使用GPU,推理使用CPU/NPU的比较常见,不像现在LLM很多都用GPU推理。

说LLM是NVIDIA撞大运,它的巧合之处就在于它对带宽的需求比对算力的需求高得多,这刚好是目前NVIDIA GPU的舒适区。但NVIDIA也不是能一直这么舒服下去的,将来的重心会从GPU转移到高性能DRAM。
发表于 2024-9-3 15:44 | 显示全部楼层
a6057c 发表于 2024-9-3 15:34
CUDA在AI领域并没有形成护城河,各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部 ...

说了那么多,现在AI运算的硬件市场,NV占了多大比例,其他几家加起来占了多大比例?这才是检验是不是护城河的金标准。
发表于 2024-9-3 15:47 | 显示全部楼层
a6057c 发表于 2024-9-3 02:34
CUDA在AI领域并没有形成护城河,各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部 ...

就算以后AI都是PIM的形式那nvdia也不一定落后,毕竟RISCV这块曾经也是最大的贡献者,大不了以后捡起来做到内存里。别的厂家无论是NPU还是啥都是nVidia玩剩下的,所以现阶段该他领先

不知这家公司现在还活着吗,有点生不逢时
https://www.anandtech.com/show/1 ... ocessing-by-upmem/3
发表于 2024-9-3 15:49 | 显示全部楼层
gihu 发表于 2024-9-3 12:04
老黄提前十几年布局了CUDA护城河,撞的可不是AI这波大运,而是赌将来高密度并行运算的前景。就算没有AI, ...

ibm 当年就是被坑了,

跟老黄合作竞争hpc , 结果忙半天卖2颗power9 ,老黄卖6块v100,

老黄还学了hpc的玩法,后面ibm就不干了,合作就没了。
发表于 2024-9-3 15:56 | 显示全部楼层
gihu 发表于 2024-9-3 15:44
说了那么多,现在AI运算的硬件市场,NV占了多大比例,其他几家加起来占了多大比例?这才是检验是不是护城 ...


说了这么多你也没有拿出足够说明nv没有撞大运的论据。你说的统计里面很取巧的把TPU/NPU全部排除在外。

真正的《护城河》是让对手几乎无法生存的,比如现在x86护城河让高通卖Windows笔记本几乎没销量。

然而nv虽然占比较高,却不是AI/LLM推理的唯一一个玩家。不说老对手AMD,你不看看博通因为Google/Meta的定制TPU/NPU需求,市值已经超过老玩家Intel+AMD总和了吗。市场上这么多卖AI方案的都获得了显著营收增长,AMD再过几个月Instinct都要超过epyc了还CUDA护城河呢
发表于 2024-9-3 15:58 | 显示全部楼层
赫敏 发表于 2024-9-3 15:47
就算以后AI都是PIM的形式那nvdia也不一定落后,毕竟RISCV这块曾经也是最大的贡献者,大不了以后捡起来做 ...

“不落后”跟“护城河”还是差距很大的……另外NV在PIM领域选择的合作伙伴也有一点…坑。
发表于 2024-9-3 16:10 来自手机 | 显示全部楼层
jim keller自称参与设计了一个12宽度的核心,skymont宽度已经是8,nova lake如果小核逆袭大核,应该就是这个12宽度的核心。由此推测jim keller的工作和rentable unit、royal core、beast lake不见得有关联。

另一方面,jim keller自称在intel主要工作是cad设计,并曾批评太多人占着工程岗搞研究,研究成果落实不到处理器上。rentable units想必就是一例。
发表于 2024-9-3 16:20 来自手机 | 显示全部楼层
wjm47196 发表于 2024-9-3 14:17
不是cpu,是单独设计的npu,tensortorrent有三个产品线。。。

那个npu里就是一堆不同大小的risc v cpu联网,最小的cpu带矩阵单元。目前的设计对数据layout很敏感,编程方面还搞不明白。
发表于 2024-9-3 16:52 来自手机 | 显示全部楼层
a6057c 发表于 2024-9-3 15:34
CUDA在AI领域并没有形成护城河,各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部 ...

很多人只搞推理,不把训练当回事。但我觉着软件适配是个大问题。分布式训练都是用pytorch+cuda栈实现的,训好的模型你想在自己npu上用还要做迁移,起码要自己画个模型结构。代码不多也就几百行,但新模型出得快,每个模型适配+测试也很要命。人家cuda方案模型一放出来,当天就用上了。

就算是openai那种闭源模型,serve模型的团队会专门去搞硬件迁移?光是清迁移过程中出现的bug都要清半天,责任还拎不清。
发表于 2024-9-3 17:51 | 显示全部楼层
它将拥有6个超高性能核心,每个核心在需要时可拆分为4个RU,从而提供最多24个线程。

重启缩线程技术?
发表于 2024-9-3 17:57 | 显示全部楼层
海法团队的设计吗?那被砍可能正常,mont系列进步太快了。
发表于 2024-9-3 18:05 | 显示全部楼层
a6057c 发表于 2024-9-3 15:56
说了这么多你也没有拿出足够说明nv没有撞大运的论据。你说的统计里面很取巧的把TPU/NPU全部排除在外。

...

这还不是关键.
关键是资本吹LLM纯粹是因为吹它可以pump各种芯片股,原因不是大模型好,反而正是大模型效率低下,需要投入大资源.
而以后真ai极大的概率不会是基于LLM甚至生成式.
发表于 2024-9-3 21:44 | 显示全部楼层
我期待RAJA当CEO。
发表于 2024-9-4 04:02 | 显示全部楼层

动态重组核心。据说牙膏下一代架构的基础是一种从头设计的高能效比处理单元,牙膏希望能效要超过苹果的Arm设计。每个tile有多个这样的单元,在高负载任务时多个单元可以动态重组成一个高性能核,类似现在的p核,在低负载任务时这些单元又可以各自形成类似现在多个e核的结构。
发表于 2024-9-4 05:59 | 显示全部楼层
flru 发表于 2024-9-3 21:44
我期待RAJA当CEO。

raja 不是早就离开 intel 公司了么?
发表于 2024-9-4 07:18 | 显示全部楼层
曾经的帝国就这样崩塌了?
发表于 2024-9-4 15:49 | 显示全部楼层
rubycon2008 发表于 2024-9-4 05:59
raja 不是早就离开 intel 公司了么?

可以回来啊
发表于 2024-9-4 16:06 | 显示全部楼层
怎么这么像推土机架构?我记得AMD以前也是这么说的,一簇放许多运算单元,必要时候分出来许多线程,后来搞出来个不伦不类的架构

果然技术创新还得靠AMD
发表于 2024-9-4 16:24 | 显示全部楼层
用户 发表于 2024-9-3 16:52
很多人只搞推理,不把训练当回事。但我觉着软件适配是个大问题。分布式训练都是用pytorch+cuda栈实现的, ...

大公司是有专门团队的,gpu太贵太费电
发表于 2024-9-4 16:36 | 显示全部楼层
用户 发表于 2024-9-3 16:52
很多人只搞推理,不把训练当回事。但我觉着软件适配是个大问题。分布式训练都是用pytorch+cuda栈实现的, ...


不仅会去搞, 而且会同时搞好几种平台...
发表于 2024-9-4 17:20 来自手机 | 显示全部楼层
dcl2009 发表于 2024-9-4 16:06
怎么这么像推土机架构?我记得AMD以前也是这么说的,一簇放许多运算单元,必要时候分出来许多线程,后来搞 ...

更像power9吧,通用的基本单元,可以4个凑一个smt8核心,也可以2个凑一个smt4核心。
发表于 2024-9-4 17:41 | 显示全部楼层
Raja不是走了么??
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 18:58 , Processed in 0.012998 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表