找回密码
 加入我们
搜索
      
楼主: fr1986

[显卡] 新年第一船 tesla T10 16g没啥人讨论吗

[复制链接]
发表于 2025-3-4 16:20 | 显示全部楼层
我们单位用一台服务器装了8块P4卡,跑Deepseek慢得一逼,只有14b的模型速度还勉强接受,70b的问你好都能卡三分钟
发表于 2025-3-17 20:19 来自手机 | 显示全部楼层
这个Tesla T10显卡的FP16被砍了不知道int8是不是也同步被砍了
发表于 2025-3-17 20:34 | 显示全部楼层
搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom,散热得改,轻量化用用还行,ollama上效率更低15t/s就不错了,不过比起2080ti还是弱了点 显存有点鸡肋
 楼主| 发表于 2025-3-17 20:36 | 显示全部楼层
sun3797 发表于 2025-3-17 20:34
搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom,散热得改,轻量化用用还行 ...

两片也不如2080ti 22g么,不过胜在单槽了
发表于 2025-3-17 20:43 | 显示全部楼层
32g才是生产力起步价啊,2*16也不是不行
发表于 2025-3-17 20:47 | 显示全部楼层
fr1986 发表于 2025-3-17 20:36
两片也不如2080ti 22g么,不过胜在单槽了

这要看你怎么用这卡了,如果是跑32b模型 宁愿选2080ti22G单片去跑,T10被动散热 过了90度降频掉驱动都有可能的,不好使,win下驱动也是个问题 搭配消费n卡更是难用!不如 2080ti省心显存量还足。
发表于 2025-3-17 21:10 | 显示全部楼层
sun3797 发表于 2025-3-17 20:34
搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom,散热得改,轻量化用用还行 ...

用**q量化格式的模型试试
发表于 2025-3-17 21:11 | 显示全部楼层
sun3797 发表于 2025-3-17 20:47
这要看你怎么用这卡了,如果是跑32b模型 宁愿选2080ti22G单片去跑,T10被动散热 过了90度降频掉驱动都有 ...

单槽你只能上暴力扇,还是改2槽2080ti的散热器吧
发表于 2025-3-17 21:14 | 显示全部楼层
我是不来晚了,好价已经没了
发表于 2025-3-17 21:21 | 显示全部楼层
q3again0605 发表于 2025-3-17 21:10
用**q量化格式的模型试试

**Q吗,感觉和awq没什么差别,理论awq会更快
发表于 2025-3-17 21:24 | 显示全部楼层
q3again0605 发表于 2025-3-17 21:11
单槽你只能上暴力扇,还是改2槽2080ti的散热器吧

为了跑vllm改了双槽涡轮,3060ti散热器
发表于 2025-3-17 21:40 | 显示全部楼层
sun3797 发表于 2025-3-17 21:21
**Q吗,感觉和awq没什么差别,理论awq会更快

我压测和并发都没什么问题,4,5个还是可以的,只是都顶着功耗墙了,频率很多时候没有跑满。
发表于 2025-3-17 21:41 | 显示全部楼层
本帖最后由 q3again0605 于 2025-3-17 21:54 编辑
q3again0605 发表于 2025-3-17 21:40
我压测和并发都没什么问题,4,5个还是可以的,只是都顶着功耗墙了,频率很多时候没有跑满。 ...


我改的2080ti的没问题啊,65摄氏度到头了。想起来了,我只是单卡测试,另外一张还没一起。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 18:36 , Processed in 0.010413 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表