3090ti是生产端设备,可以用作训练,ai pc的npu是消费端设备,npu只考虑怎么高效的推理,所以即便ops完全一 ...
对普通人来讲,推理用的更多,这方面的设备及其选择性还是太少了。 kang12 发表于 2024-7-15 23:40
https://www.chiphell.com/thread-2616424-1-1.html 这个新闻帖里有40系N卡的AI TOPS,换算过去可以知道30 ...
这张表格好https://static.chiphell.com/forum/202406/27/161254h0b5oeb40l4gefd2.jpg privater 发表于 2024-7-16 01:12
真有人信这些厂商的话术吗?
稍微玩点 diy 都该知道和性能直接相关的看芯片面积是最容易的。
信息还是太多,想稍微多了解点,尤其是不熟悉的领域,都需要花点精力。
我知道晶体管数量这个指标,但是tops指标真正转化起来还是不知道 aibo 发表于 2024-7-16 09:30
根据nv的白皮书,3090ti的int8 是320/640TOPS
不知道现在这个稀疏性用的多不多
这么看还不错,拿来做推理。生产的差距按楼下指标,那就太大了。
hjmfun 发表于 2024-7-16 09:35
NV 也发明了和AIPC对标的AI Tops, 可以在官网找到这个表格:
还好我不搞训练,但是看了这个,我也不想再买第二张3090了 os39000 发表于 2024-7-16 10:05
这么看还不错,拿来做推理。生产的差距按楼下指标,那就太大了。
老黄的这个表格,ai算力好像是用fp8算的。
40系的tensor可以直接算fp8。30系只能用tensor算fp16
cuixiang 发表于 2024-7-16 09:16
对,原材料摆在那里。
但AI 的确是卖点不假。谁叫显卡不先走这一步棋,好领先呢。不然哪有CPU的事。 ...
你说反了,这个AI PC概念是CPU厂商眼红GPU才搞出来的,懂的人都知道算力看GPU,但是小白不懂,所以炒个概念把小白忽悠进来买单而已。 aibo 发表于 2024-7-16 10:53
老黄的这个表格,ai算力好像是用fp8算的。
40系的tensor可以直接算fp8。30系只能用tensor算fp16
这么看等下一代50显存大于24G的版本也是不错的选择。我现在能跑34B的int4版本。
70B量化用7980勉强能运行,速度很慢,结果也没有太明显优势。 slan7777 发表于 2024-7-16 11:31
你说反了,这个AI PC概念是CPU厂商眼红GPU才搞出来的,懂的人都知道算力看GPU,但是小白不懂,所以炒个概 ...
倒也不完全是, llm助手是需要常驻的, 对于独显来说常驻一个消耗掉一大块显存的东西成本太高收益太低, 多少有点不可接受
核显是可以, 但NPU可以在更低的成本下实现这一点 本帖最后由 xy. 于 2024-7-16 11:52 编辑
os39000 发表于 2024-7-16 11:35
这么看等下一代50显存大于24G的版本也是不错的选择。我现在能跑34B的int4版本。
70B量化用7980勉强能运行 ...
4bit 量化的模型已经不能说没有优势了 基本就是弱智
2024 年 6 月的寄屁踢 3.5 有 10 的话, llama3 70B 4bit 最多有 3 本帖最后由 zhuifeng88 于 2024-7-16 12:02 编辑
xy. 发表于 2024-7-16 11:50
4bit 量化的模型已经不能说没有优势了 基本就是弱智
你可能是用了太过古老的量化方式量化的模型得出这个结论
现在4bit量化损失在大部分测试里损失都低于1%了...
而且为什么和GxPT3.5比, 量化不应该和自己没量化的比吗, 控制变量呢... TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供 garfield0018 发表于 2024-7-16 16:41
TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供 ...
显卡ai算力浮点主要也是tensorcore提供的...non tensor单元只能提供一小半(游戏卡)和纯粹就是个零头(计算卡) 各种宣传大都是int8吧。 zhuifeng88 发表于 2024-7-16 11:52
你可能是用了太过古老的量化方式量化的模型得出这个结论
现在4bit量化损失在大部分测试里损失都低于1%了. ...
我用浏览器扩展跑过**3.5, 收费的文心用过两个月,免费的里面感觉 claude比较好用。
8B的llama,最近有小朋友学代码,llama两三次能指出需要修改的地方,这也是出乎意料的 xy. 发表于 2024-7-16 11:50
4bit 量化的模型已经不能说没有优势了 基本就是弱智
2024 年 6 月的寄屁踢 3.5 有 10 的话, llama3 70B 4 ...
我用浏览器扩展跑过**3.5, 收费的文心用过两个月,免费的里面感觉 claude比较好用。
8B的llama,最近有小朋友学代码,llama两三次能指出需要修改的地方,这也是出乎意料的 zhuifeng88 发表于 2024-7-16 16:50
显卡ai算力浮点主要也是tensorcore提供的...non tensor单元只能提供一小半(游戏卡)和纯粹就是个零头(计算 ...
主要是张量计算单元能提供1/4精度甚至1/8精度的整数操作和浮点运算吧?其他的都至少是24bit整数或单精度浮点,所以可用算力少得很。 garfield0018 发表于 2024-7-16 16:41
TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供 ...
并不是
TFLOPS,是浮点。基本上就是指fp32
TOPS,各家标准不一。有的fp16,有的fp8,有的int8,说不定还有fp4/int4的
和是不是tensor的没有关系 gihu 发表于 2024-7-16 21:42
主要是张量计算单元能提供1/4精度甚至1/8精度的整数操作和浮点运算吧?其他的都至少是24bit整数或单精度 ...
其他的也可以提供half2fma(fp16)和dp4a(int8)操作, dp4a各家都是4倍fp32算力, 不存在至少24bit的事情, 只是和tensorcore比还是太低了罢了 garfield0018 发表于 2024-7-16 16:41
TFLOPS,TOPS是两个概念。
对于显卡来说,TFLOPS是浮点单元提供的,TOPS是tensor core提供 ...
TFLOPS不过是TOPS的一个子集
1TFLOPS特指每秒一万亿次浮点运算
1TOPS是每秒一万亿次运算,可以是浮点、整数、光追等任意类型数据 zhuifeng88 发表于 2024-7-16 22:13
其他的也可以提供half2fma(fp16)和dp4a(int8)操作, dp4a各家都是4倍fp32算力, 不存在至少24bit的事情, 只 ...
我的意思是,NV的gpu里,能提供低精度算力的,主要是是tensor core,其他处理器,例如A或I的 NPU里,能做AI低精度算力的,肯定不仅是tensor core 本帖最后由 zhuifeng88 于 2024-7-17 00:43 编辑
gihu 发表于 2024-7-17 00:04
我的意思是,NV的gpu里,能提供低精度算力的,主要是是tensor core,其他处理器,例如A或I的 NPU里,能做 ...
npu里纸面算力的主要部分同样是和tensorcore类似的matrix unit提供的, vector和scalar unit只提供算子兼容性角度考虑的少量算力
比如拿intel的举例, dpu部分是个和tensorcore类似的单元, 90%算力是由这部分提供的, 剩下的"其他部分"只提供10%, 占比比nvidia的tensorcore都要高(除了h100, h100的tensorcore算力占比95%)
zhuifeng88 发表于 2024-7-17 00:31
npu里纸面算力的主要部分同样是和tensorcore类似的matrix unit提供的, vector和scalar unit只提供算子兼 ...
可以的,很专业了[傻笑]
但有个比较有趣的事情,H100虽然AI算力不俗,但FP64算力却不佳,远不如MI300X。后者可以兼顾HP和AI计算,前者却不行。而且就纯粹AI算力上,MI300x还是超出H100的。MI300x中类似的张量单元占比应该不会太高吧? 本帖最后由 zhuifeng88 于 2024-7-17 13:36 编辑
gihu 发表于 2024-7-17 11:54
可以的,很专业了
但有个比较有趣的事情,H100虽然AI算力不俗,但FP64算力却不佳,远不如MI300X。后者可 ...
mi300x占比不会太高(指和h100一样的占比)
页:
1
[2]