找回密码
 加入我们
搜索
      
楼主: os39000

[显卡] 关于AI PC的50TOPS,请教各位180mm

[复制链接]
 楼主| 发表于 2024-7-16 09:49 | 显示全部楼层
我輩樹である 发表于 2024-7-15 22:54
3090ti是生产端设备,可以用作训练,ai pc的npu是消费端设备,npu只考虑怎么高效的推理,所以即便ops完全一 ...

对普通人来讲,推理用的更多,这方面的设备及其选择性还是太少了。
 楼主| 发表于 2024-7-16 09:52 | 显示全部楼层
kang12 发表于 2024-7-15 23:40
https://www.chiphell.com/thread-2616424-1-1.html 这个新闻帖里有40系N卡的AI TOPS,换算过去可以知道30 ...


这张表格好
 楼主| 发表于 2024-7-16 09:57 | 显示全部楼层
privater 发表于 2024-7-16 01:12
真有人信这些厂商的话术吗?

稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。

信息还是太多,想稍微多了解点,尤其是不熟悉的领域,都需要花点精力。
我知道晶体管数量这个指标,但是tops指标真正转化起来还是不知道
 楼主| 发表于 2024-7-16 10:05 | 显示全部楼层
aibo 发表于 2024-7-16 09:30
根据nv的白皮书,3090ti的int8 是320/640TOPS
不知道现在这个稀疏性用的多不多

这么看还不错,拿来做推理。生产的差距按楼下指标,那就太大了。
屏幕截图 2024-07-16 100258.png
 楼主| 发表于 2024-7-16 10:06 | 显示全部楼层
hjmfun 发表于 2024-7-16 09:35
NV 也发明了和AIPC对标的AI Tops, 可以在官网找到这个表格:

        

还好我不搞训练,但是看了这个,我也不想再买第二张3090了
发表于 2024-7-16 10:53 | 显示全部楼层
os39000 发表于 2024-7-16 10:05
这么看还不错,拿来做推理。生产的差距按楼下指标,那就太大了。

老黄的这个表格,ai算力好像是用fp8算的。

40系的tensor可以直接算fp8。30系只能用tensor算fp16

Snipaste_2024-07-16_10-52-50.jpg

评分

参与人数 1邪恶指数 +5 收起 理由
kang12 + 5 嗯,就是感觉很神秘- -

查看全部评分

发表于 2024-7-16 11:31 | 显示全部楼层
cuixiang 发表于 2024-7-16 09:16
对,原材料摆在那里。

但AI 的确是卖点不假。谁叫显卡不先走这一步棋,好领先呢。不然哪有CPU的事。 ...

你说反了,这个AI PC概念是CPU厂商眼红GPU才搞出来的,懂的人都知道算力看GPU,但是小白不懂,所以炒个概念把小白忽悠进来买单而已。
 楼主| 发表于 2024-7-16 11:35 | 显示全部楼层
aibo 发表于 2024-7-16 10:53
老黄的这个表格,ai算力好像是用fp8算的。

40系的tensor可以直接算fp8。30系只能用tensor算fp16

这么看等下一代50显存大于24G的版本也是不错的选择。我现在能跑34B的int4版本。
70B量化用7980勉强能运行,速度很慢,结果也没有太明显优势。
发表于 2024-7-16 11:49 | 显示全部楼层
slan7777 发表于 2024-7-16 11:31
你说反了,这个AI PC概念是CPU厂商眼红GPU才搞出来的,懂的人都知道算力看GPU,但是小白不懂,所以炒个概 ...

倒也不完全是, llm助手是需要常驻的, 对于独显来说常驻一个消耗掉一大块显存的东西成本太高收益太低, 多少有点不可接受
核显是可以, 但NPU可以在更低的成本下实现这一点
发表于 2024-7-16 11:50 | 显示全部楼层
本帖最后由 xy. 于 2024-7-16 11:52 编辑
os39000 发表于 2024-7-16 11:35
这么看等下一代50显存大于24G的版本也是不错的选择。我现在能跑34B的int4版本。
70B量化用7980勉强能运行 ...


4bit 量化的模型已经不能说没有优势了 基本就是弱智
2024 年 6 月的寄屁踢 3.5 有 10 的话, llama3 70B 4bit 最多有 3
发表于 2024-7-16 11:52 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-7-16 12:02 编辑
xy. 发表于 2024-7-16 11:50
4bit 量化的模型已经不能说没有优势了 基本就是弱智


你可能是用了太过古老的量化方式量化的模型得出这个结论
现在4bit量化损失在大部分测试里损失都低于1%了...

而且为什么和GxPT3.5比, 量化不应该和自己没量化的比吗, 控制变量呢...
发表于 2024-7-16 16:41 | 显示全部楼层
TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供
发表于 2024-7-16 16:50 | 显示全部楼层
garfield0018 发表于 2024-7-16 16:41
TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供 ...

显卡ai算力浮点主要也是tensorcore提供的...non tensor单元只能提供一小半(游戏卡)和纯粹就是个零头(计算卡)
发表于 2024-7-16 16:55 | 显示全部楼层
各种宣传大都是int8吧。
 楼主| 发表于 2024-7-16 18:48 | 显示全部楼层
zhuifeng88 发表于 2024-7-16 11:52
你可能是用了太过古老的量化方式量化的模型得出这个结论
现在4bit量化损失在大部分测试里损失都低于1%了. ...

我用浏览器扩展跑过**3.5, 收费的文心用过两个月,免费的里面感觉 claude比较好用。
8B的llama,最近有小朋友学代码,llama两三次能指出需要修改的地方,这也是出乎意料的
 楼主| 发表于 2024-7-16 18:50 | 显示全部楼层
xy. 发表于 2024-7-16 11:50
4bit 量化的模型已经不能说没有优势了 基本就是弱智
2024 年 6 月的寄屁踢 3.5 有 10 的话, llama3 70B 4 ...

我用浏览器扩展跑过**3.5, 收费的文心用过两个月,免费的里面感觉 claude比较好用。
8B的llama,最近有小朋友学代码,llama两三次能指出需要修改的地方,这也是出乎意料的
发表于 2024-7-16 21:42 | 显示全部楼层
zhuifeng88 发表于 2024-7-16 16:50
显卡ai算力浮点主要也是tensorcore提供的...non tensor单元只能提供一小半(游戏卡)和纯粹就是个零头(计算 ...

主要是张量计算单元能提供1/4精度甚至1/8精度的整数操作和浮点运算吧?其他的都至少是24bit整数或单精度浮点,所以可用算力少得很。
发表于 2024-7-16 22:04 | 显示全部楼层
garfield0018 发表于 2024-7-16 16:41
TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供 ...


并不是
TFLOPS,是浮点。基本上就是指fp32

TOPS,各家标准不一。有的fp16,有的fp8,有的int8,说不定还有fp4/int4的

和是不是tensor的没有关系
发表于 2024-7-16 22:13 | 显示全部楼层
gihu 发表于 2024-7-16 21:42
主要是张量计算单元能提供1/4精度甚至1/8精度的整数操作和浮点运算吧?其他的都至少是24bit整数或单精度 ...


其他的也可以提供half2fma(fp16)和dp4a(int8)操作, dp4a各家都是4倍fp32算力, 不存在至少24bit的事情, 只是和tensorcore比还是太低了罢了
发表于 2024-7-16 23:13 | 显示全部楼层
garfield0018 发表于 2024-7-16 16:41
TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供 ...

TFLOPS不过是TOPS的一个子集
1TFLOPS特指每秒一万亿次浮点运算
1TOPS是每秒一万亿次运算,可以是浮点、整数、光追等任意类型数据
发表于 2024-7-17 00:04 | 显示全部楼层
zhuifeng88 发表于 2024-7-16 22:13
其他的也可以提供half2fma(fp16)和dp4a(int8)操作, dp4a各家都是4倍fp32算力, 不存在至少24bit的事情, 只 ...

我的意思是,NV的gpu里,能提供低精度算力的,主要是是tensor core,其他处理器,例如A或I的 NPU里,能做AI低精度算力的,肯定不仅是tensor core
发表于 2024-7-17 00:31 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-7-17 00:43 编辑
gihu 发表于 2024-7-17 00:04
我的意思是,NV的gpu里,能提供低精度算力的,主要是是tensor core,其他处理器,例如A或I的 NPU里,能做 ...


npu里纸面算力的主要部分同样是和tensorcore类似的matrix unit提供的, vector和scalar unit只提供算子兼容性角度考虑的少量算力

比如拿intel的举例, dpu部分是个和tensorcore类似的单元, 90%算力是由这部分提供的, 剩下的"其他部分"只提供10%, 占比比nvidia的tensorcore都要高(除了h100, h100的tensorcore算力占比95%)
mtl_npu_drawio.jpg
发表于 2024-7-17 11:54 | 显示全部楼层
zhuifeng88 发表于 2024-7-17 00:31
npu里纸面算力的主要部分同样是和tensorcore类似的matrix unit提供的, vector和scalar unit只提供算子兼 ...

可以的,很专业了

但有个比较有趣的事情,H100虽然AI算力不俗,但FP64算力却不佳,远不如MI300X。后者可以兼顾HP和AI计算,前者却不行。而且就纯粹AI算力上,MI300x还是超出H100的。MI300x中类似的张量单元占比应该不会太高吧?
发表于 2024-7-17 13:35 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-7-17 13:36 编辑
gihu 发表于 2024-7-17 11:54
可以的,很专业了

但有个比较有趣的事情,H100虽然AI算力不俗,但FP64算力却不佳,远不如MI300X。后者可 ...


mi300x占比不会太高(指和h100一样的占比)

Z4LBOV$BF6A[QDYJ5QO%HI7.png
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 14:49 , Processed in 0.014705 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表