mnak888 发表于 2025-4-10 22:04

谷歌发布第七代TPU“Ironwood” 专注于AI推理,带来每瓦性能翻倍提升


谷歌宣布,推出第七代TPU“Ironwood”,旨在提升人工智能(AI)应用程序的性能。谷歌表示,新款AI芯片专注于推理计算,即聊天机器人问答和其他AI输出所需的快速计算,谷歌花了10年时间及数十亿美元来开发TPU,暂时只提供给其内部工程师或者通过谷歌的云服务使用。



Google Cloud副总裁Amin Vahdat表示:“Ironwood是谷歌迄今为止功能最强大、性能最强、最节能的TPU,专为大规模支持思考和推理AI模型而设计。”

第七代TPU“Ironwood”的峰值算力为4614 TeraFLOPS(第六代TPU芯片“Trillium”的5倍),内存高达192GB(“Trillium”的6倍);HBM带宽达到7.2 Tbps(“Trillium”的4.5倍);每瓦峰值算力为29.3 TeraFLOPS(“Trillium”的2倍);增强的芯片间互连 (ICI) 带宽,双向增至1.2 Tbps(“Trillium”的1.5倍)。此外,“Ironwood”还搭载了增强版专用核心SparseCore,用于处理“高级排序”和“推荐”任务中常见的数据类型,通过最小化芯片内数据移动和延迟来实现节能。

Google Cloud为客户提供了256芯片和9216芯片两种配置选择,后者的AI算力达到了42.5 ExaFLOPS。“Ironwood”芯片将作为Google AI超级计算机架构的核心组件,通过软硬件协同优化,将有力推动生成式AI向更复杂场景演进。

新闻来源 https://www.expreview.com/99197.html

赫敏 发表于 2025-4-10 22:41

纯推理才4.6T感觉不太行,5090都有3.3T还兼顾训练

bigmanlei 发表于 2025-4-11 08:18

谷歌总感觉疫情以来几年持续有点拉跨,什么屎都没吃上热乎的,全靠吃广告营收在撑着。
应该是三哥慢慢在侵蚀这个企业。

libfire2002 发表于 2025-4-11 16:39

三哥 还是很厉害的

Neo_Granzon 发表于 2025-4-13 05:26

赫敏 发表于 2025-4-10 22:41
纯推理才4.6T感觉不太行,5090都有3.3T还兼顾训练

你这个单位少了个k,5090的int8算力是3352tops。不过tpu的tensor core支持的矩阵尺寸远大于NVDA的tensor core,具体优势体现在哪里?

赫敏 发表于 2025-4-13 06:41

Neo_Granzon 发表于 2025-4-12 16:26
你这个单位少了个k,5090的int8算力是3352tops。不过tpu的tensor core支持的矩阵尺寸远大于NVDA的tensor...

h100可是8k*8k的fp16输入,tpu有大很多?

Neo_Granzon 发表于 2025-4-13 09:23

赫敏 发表于 2025-4-13 06:41
h100可是8k*8k的fp16输入,tpu有大很多?

CUDA的TensorCore支持16x16的矩阵乘加,TPU的TensorCore支持的是128x128或者256x256.

赫敏 发表于 2025-4-13 10:26

Neo_Granzon 发表于 2025-4-12 20:23
CUDA的TensorCore支持16x16的矩阵乘加,TPU的TensorCore支持的是128x128或者256x256.

cuda只是说为了优化,矩阵的size在int8数据类型下要是16的整数倍,或者fp16数据类型下是8的整数倍,并没有大小的限制。实际上几个k维度的矩阵都可以算

要是超过16的矩阵都没法算这玩意没法用了

Neo_Granzon 发表于 2025-4-13 13:49

赫敏 发表于 2025-4-13 10:26
cuda只是说为了优化,矩阵的size在int8数据类型下要是16的整数倍,或者fp16数据类型下是8的整数倍,并没 ...

用TensorCore当然要针对性优化了,不然轻则效率暴降,重则直接跑在常规流处理器甚至CPU上面。

我想NV的GPU跟GOOGLE的TPU之间硬件设计差别如此之大,最后如果效果非常接近,很有意思。
页: [1]
查看完整版本: 谷歌发布第七代TPU“Ironwood” 专注于AI推理,带来每瓦性能翻倍提升