新年第一船 tesla T10 16g没啥人讨论吗

lqf3dnow · 发表于 2025-3-4 16:20

我们单位用一台服务器装了8块P4卡，跑Deepseek慢得一逼，只有14b的模型速度还勉强接受，70b的问你好都能卡三分钟

LY文库 · 发表于 2025-3-17 20:19

这个Tesla T10显卡的FP16被砍了不知道int8是不是也同步被砍了

sun3797 · 发表于 2025-3-17 20:34

搞了2片测了一下，vllm上32b模型awq量化单线可以跑到25~30t/s，并发一测就oom

，散热得改，轻量化用用还行，ollama上效率更低15t/s就不错了，不过比起2080ti还是弱了点显存有点鸡肋

fr1986 · 发表于 2025-3-17 20:36

sun3797 发表于 2025-3-17 20:34
搞了2片测了一下，vllm上32b模型awq量化单线可以跑到25~30t/s，并发一测就oom，散热得改，轻量化用用还行 ...

两片也不如2080ti 22g么，不过胜在单槽了

herbertyang · 发表于 2025-3-17 20:43

32g才是生产力起步价啊，2*16也不是不行

sun3797 · 发表于 2025-3-17 20:47

fr1986 发表于 2025-3-17 20:36
两片也不如2080ti 22g么，不过胜在单槽了

这要看你怎么用这卡了，如果是跑32b模型宁愿选2080ti22G单片去跑，T10被动散热过了90度降频掉驱动都有可能的，不好使，win下驱动也是个问题搭配消费n卡更是难用！不如 2080ti省心显存量还足。

q3again0605 · 发表于 2025-3-17 21:10

sun3797 发表于 2025-3-17 20:34
搞了2片测了一下，vllm上32b模型awq量化单线可以跑到25~30t/s，并发一测就oom，散热得改，轻量化用用还行 ...

用**q量化格式的模型试试

q3again0605 · 发表于 2025-3-17 21:11

sun3797 发表于 2025-3-17 20:47
这要看你怎么用这卡了，如果是跑32b模型宁愿选2080ti22G单片去跑，T10被动散热过了90度降频掉驱动都有 ...

单槽你只能上暴力扇，还是改2槽2080ti的散热器吧

moweiraul · 发表于 2025-3-17 21:14

我是不来晚了，好价已经没了

sun3797 · 发表于 2025-3-17 21:21

q3again0605 发表于 2025-3-17 21:10
用**q量化格式的模型试试

**Q吗，感觉和awq没什么差别，理论awq会更快

sun3797 · 发表于 2025-3-17 21:24

q3again0605 发表于 2025-3-17 21:11
单槽你只能上暴力扇，还是改2槽2080ti的散热器吧

为了跑vllm改了双槽涡轮，3060ti散热器

q3again0605 · 发表于 2025-3-17 21:40

sun3797 发表于 2025-3-17 21:21
**Q吗，感觉和awq没什么差别，理论awq会更快

我压测和并发都没什么问题，4,5个还是可以的，只是都顶着功耗墙了，频率很多时候没有跑满。

q3again0605 · 发表于 2025-3-17 21:41

本帖最后由 q3again0605 于 2025-3-17 21:54 编辑

q3again0605 发表于 2025-3-17 21:40
我压测和并发都没什么问题，4,5个还是可以的，只是都顶着功耗墙了，频率很多时候没有跑满。 ...

我改的2080ti的没问题啊，65摄氏度到头了。想起来了，我只是单卡测试，另外一张还没一起。

vvlang · 发表于 2025-5-13 11:22

这个东西很不错啊

kesayi · 发表于 2025-5-13 11:57

见过网上改的双风扇散热压不住这卡散热是个事儿

q3again0605 · 发表于 2025-5-13 12:58

kesayi 发表于 2025-5-13 11:57
见过网上改的双风扇散热压不住这卡散热是个事儿

改2080ti的单风扇涡轮就可以，压得住

li77leprince · 发表于 2025-5-13 14:19

这张卡能装dell的R730吗？我想给自己的R730来两张计算卡，刚好也不用担心散热问题

账号		自动登录	找回密码
密码			加入我们

[显卡] 新年第一船 tesla T10 16g没啥人讨论吗