嘤特尔决定做二线牙膏厂了？

wjm47196 · 发表于 2024-9-3 14:17

赫敏发表于 2024-9-3 11:38
Jim现在在用CPU做AI。。。。。

不是cpu，是单独设计的npu，tensortorrent有三个产品线。。。

wjm47196 · 发表于 2024-9-3 14:19

Darylyexu 发表于 2024-9-3 12:15
冷知识 ryzen就是jim keller搞得

jim负责组织团队，具体设计是Michael clark搞的。他去牙膏厂和特斯拉也干的是这个事情，结果牙膏厂根深蒂固他就拍拍屁股走人了

ecc29 · 发表于 2024-9-3 14:34

牙膏解散AADG(Advanced Architecture Development Group)的消息是一个月以前的事了。牙膏现在就是个盲目跟风的，AI的噱头没起来的时候不把GPU设计当回事，然后把AADG的大部分人转去做GPU，最近股市上AI开始退烧了，这样下去吃屎都赶不上热的。

AADG的负责人Debbie Marr前一段拉了几个Royal Core的关键人物出去自组公司做RISC-V设计去了，巧的是Jim Keller现在也在鼓捣RISC-V

YoshinoSakura · 发表于 2024-9-3 14:46

农：你接下来是不是要搞什么两个核心融成一颗的玩法

a6057c · 发表于 2024-9-3 15:34

gihu 发表于 2024-9-3 12:04
老黄提前十几年布局了CUDA护城河，撞的可不是AI这波大运，而是赌将来高密度并行运算的前景。就算没有AI， ...

CUDA在AI领域并没有形成护城河，各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部署GPU而是自己定制TPU来做训练和推理。

科学计算/大规模并行计算领域，GPU确实有一席之地，但是单靠这一块市场并不能让NVIDIA走到今天的地位。甚至传统的小模型AI也不能让NVIDIA走到现在的地位，因为小模型只有训练需要使用GPU，推理使用CPU/NPU的比较常见，不像现在LLM很多都用GPU推理。

说LLM是NVIDIA撞大运，它的巧合之处就在于它对带宽的需求比对算力的需求高得多，这刚好是目前NVIDIA GPU的舒适区。但NVIDIA也不是能一直这么舒服下去的，将来的重心会从GPU转移到高性能DRAM。

gihu · 发表于 2024-9-3 15:44

a6057c 发表于 2024-9-3 15:34
CUDA在AI领域并没有形成护城河，各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部 ...

说了那么多，现在AI运算的硬件市场，NV占了多大比例，其他几家加起来占了多大比例？这才是检验是不是护城河的金标准。

赫敏 · 发表于 2024-9-3 15:47

a6057c 发表于 2024-9-3 02:34
CUDA在AI领域并没有形成护城河，各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部 ...

就算以后AI都是PIM的形式那nvdia也不一定落后，毕竟RISCV这块曾经也是最大的贡献者，大不了以后捡起来做到内存里。别的厂家无论是NPU还是啥都是nVidia玩剩下的，所以现阶段该他领先

不知这家公司现在还活着吗，有点生不逢时
https://www.anandtech.com/show/1 ... ocessing-by-upmem/3

kupanda2021 · 发表于 2024-9-3 15:49

gihu 发表于 2024-9-3 12:04
老黄提前十几年布局了CUDA护城河，撞的可不是AI这波大运，而是赌将来高密度并行运算的前景。就算没有AI， ...

ibm 当年就是被坑了，

跟老黄合作竞争hpc ，结果忙半天卖2颗power9 ，老黄卖6块v100，

老黄还学了hpc的玩法，后面ibm就不干了，合作就没了。

a6057c · 发表于 2024-9-3 15:56

gihu 发表于 2024-9-3 15:44
说了那么多，现在AI运算的硬件市场，NV占了多大比例，其他几家加起来占了多大比例？这才是检验是不是护城 ...

说了这么多你也没有拿出足够说明nv没有撞大运的论据。你说的统计里面很取巧的把TPU/NPU全部排除在外。

真正的《护城河》是让对手几乎无法生存的，比如现在x86护城河让高通卖Windows笔记本几乎没销量。

然而nv虽然占比较高，却不是AI/LLM推理的唯一一个玩家。不说老对手AMD，你不看看博通因为Google/Meta的定制TPU/NPU需求，市值已经超过老玩家Intel+AMD总和了吗。市场上这么多卖AI方案的都获得了显著营收增长，AMD再过几个月Instinct都要超过epyc了还CUDA护城河呢

a6057c · 发表于 2024-9-3 15:58

赫敏发表于 2024-9-3 15:47
就算以后AI都是PIM的形式那nvdia也不一定落后，毕竟RISCV这块曾经也是最大的贡献者，大不了以后捡起来做 ...

“不落后”跟“护城河”还是差距很大的……另外NV在PIM领域选择的合作伙伴也有一点…坑。

用户 · 发表于 2024-9-3 16:10

jim keller自称参与设计了一个12宽度的核心，skymont宽度已经是8，nova lake如果小核逆袭大核，应该就是这个12宽度的核心。由此推测jim keller的工作和rentable unit、royal core、beast lake不见得有关联。

另一方面，jim keller自称在intel主要工作是cad设计，并曾批评太多人占着工程岗搞研究，研究成果落实不到处理器上。rentable units想必就是一例。

用户 · 发表于 2024-9-3 16:20

wjm47196 发表于 2024-9-3 14:17
不是cpu，是单独设计的npu，tensortorrent有三个产品线。。。

那个npu里就是一堆不同大小的risc v cpu联网，最小的cpu带矩阵单元。目前的设计对数据layout很敏感，编程方面还搞不明白。

用户 · 发表于 2024-9-3 16:52

a6057c 发表于 2024-9-3 15:34
CUDA在AI领域并没有形成护城河，各个软件公司都研究了替代方案。甚至还有Google这种从最开始就没有大量部 ...

很多人只搞推理，不把训练当回事。但我觉着软件适配是个大问题。分布式训练都是用pytorch+cuda栈实现的，训好的模型你想在自己npu上用还要做迁移，起码要自己画个模型结构。代码不多也就几百行，但新模型出得快，每个模型适配+测试也很要命。人家cuda方案模型一放出来，当天就用上了。

就算是openai那种闭源模型，serve模型的团队会专门去搞硬件迁移？光是清迁移过程中出现的bug都要清半天，责任还拎不清。

自挂东南枝 · 发表于 2024-9-3 17:51

它将拥有6个超高性能核心，每个核心在需要时可拆分为4个RU，从而提供最多24个线程。

重启缩线程技术？

CyanCloverFern · 发表于 2024-9-3 17:57

海法团队的设计吗？那被砍可能正常，mont系列进步太快了。

Superdoll · 发表于 2024-9-3 18:05

a6057c 发表于 2024-9-3 15:56
说了这么多你也没有拿出足够说明nv没有撞大运的论据。你说的统计里面很取巧的把TPU/NPU全部排除在外。

...

这还不是关键.
关键是资本吹LLM纯粹是因为吹它可以pump各种芯片股,原因不是大模型好,反而正是大模型效率低下,需要投入大资源.
而以后真ai极大的概率不会是基于LLM甚至生成式.

flru · 发表于 2024-9-3 21:44

我期待RAJA当CEO。

ecc29 · 发表于 2024-9-4 04:02

自挂东南枝发表于 2024-9-3 04:51
重启缩线程技术？

动态重组核心。据说牙膏下一代架构的基础是一种从头设计的高能效比处理单元，牙膏希望能效要超过苹果的Arm设计。每个tile有多个这样的单元，在高负载任务时多个单元可以动态重组成一个高性能核，类似现在的p核，在低负载任务时这些单元又可以各自形成类似现在多个e核的结构。

rubycon2008 · 发表于 2024-9-4 05:59

flru 发表于 2024-9-3 21:44
我期待RAJA当CEO。

raja 不是早就离开 intel 公司了么？

gpedit · 发表于 2024-9-4 07:18

曾经的帝国就这样崩塌了？

flru · 发表于 2024-9-4 15:49

rubycon2008 发表于 2024-9-4 05:59
raja 不是早就离开 intel 公司了么？

可以回来啊

dcl2009 · 发表于 2024-9-4 16:06

怎么这么像推土机架构？我记得AMD以前也是这么说的，一簇放许多运算单元，必要时候分出来许多线程，后来搞出来个不伦不类的架构

果然技术创新还得靠AMD

pcgsf22 · 发表于 2024-9-4 16:24

用户发表于 2024-9-3 16:52
很多人只搞推理，不把训练当回事。但我觉着软件适配是个大问题。分布式训练都是用pytorch+cuda栈实现的， ...

大公司是有专门团队的，gpu太贵太费电

zhuifeng88 · 发表于 2024-9-4 16:36

用户发表于 2024-9-3 16:52
很多人只搞推理，不把训练当回事。但我觉着软件适配是个大问题。分布式训练都是用pytorch+cuda栈实现的， ...

不仅会去搞, 而且会同时搞好几种平台...

af_x_if · 发表于 2024-9-4 17:20

dcl2009 发表于 2024-9-4 16:06
怎么这么像推土机架构？我记得AMD以前也是这么说的，一簇放许多运算单元，必要时候分出来许多线程，后来搞 ...

更像power9吧，通用的基本单元，可以4个凑一个smt8核心，也可以2个凑一个smt4核心。

hlhaidy · 发表于 2024-9-4 17:41

Raja不是走了么？？

账号		自动登录	找回密码
密码			加入我们

[CPU] 嘤特尔决定做二线牙膏厂了？

浏览过的版块