最近我想本地部署deepseek真是魔怔了，大家看看这个跑70b模型速度怎么样 - 第4页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

scpe 发表于 2025-7-28 22:47

bacu 发表于 2025-7-28 22:39
我装过的说一下，70b需要40G以上的显存跑，卡本身的能力反而不那么重要。性价比最高的是双7900XT，正好40G ...

70b-q4 48g显存也比较极限，拉一点上下文就爆了。非魔改4090的24g肯定只能爬了。非要装这个级别的模型加上大一点的上下文比较实际的选择是m2 ultra，不过也没什么性价比。

yszb 发表于 2025-7-29 07:35

浪龙发表于 2025-7-28 22:34
纯文字工作估计7B左右的模型就够了,可以看看智普的模型, 9B的效果就挺不错

差很远，工作上，至少32b，我用审稿和校对试验了一下

la814273 发表于 2025-7-29 08:31

本帖最后由 la814273 于 2025-7-29 08:35 编辑

scpe 发表于 2025-7-28 22:28
建议放弃，用过M3 ultra 512g的Mac studio跑满血DS Q4, 比API弱智一个数量级。傻一点不要命，关键是慢，p ...

这个是苹果或者lmstudio的问题，没默认开prompt cache吧，正常是不会的
性价比来说mac主要是省电，diy的性价比还是高不少，目前ds q4大概15000的配置能做到40t/s输入8-9t/s输出，再加两三千到一万七八能到80t/s输入9t/s输出(或者双路40t/s输入12-13t/s输出，两个方案价格差不多)，四五万左右大概能到150t/s输入25t/s输出

wuxi001 发表于 2025-7-29 08:36

直接使用 ** 不香？还要自己折腾大模型？再说了 Deepseek 开始倾倒大量垃圾和虚假信息。

zvcs 发表于 2025-7-29 08:48

你一万多块钱，可以买好多好多token了吧。。。。个人用用云服务最划算了

凹凸曼超凹凸 发表于 2025-7-29 08:52

卧槽，一万六买mac mini怎么想的啊，这价格买个mac studio吊打，就算是老的m2 max也吊打，不是一个规模的芯片和散热

gou123 发表于 2025-7-29 09:02

我印象里用APU最大能有96G显存的，有很多小巧的品牌机。

gou123 发表于 2025-7-29 09:13

Ryzen AI Max+ 395处理器，基于Zen 5架构打造，配备了16核心32线程，最高加速频率为5.1 GHz，总缓存容量80MB；核显为Radeon 8060S，基于RDNA 3.5架构打造，共有40组CU，拥有媲美移动端独显的图形性能；配备50 TOPS的NPU。

rainbow2003 发表于 2025-7-29 10:11

真的没必要。。。

bacu 发表于 2025-7-29 16:08

scpe 发表于 2025-7-28 22:47
70b-q4 48g显存也比较极限，拉一点上下文就爆了。非魔改4090的24g肯定只能爬了。非要装这个级别的模型加 ...

Q4 量化的版本是 40G，贴一下双 7900XTX 的实际速度，不快但能用，但比爆显存的 24G 4090 快多了（那个只有 3token/s）：

la814273 发表于 2025-7-29 16:40

本帖最后由 la814273 于 2025-7-29 16:41 编辑

scpe 发表于 2025-7-28 22:47
70b-q4 48g显存也比较极限，拉一点上下文就爆了。非魔改4090的24g肯定只能爬了。非要装这个级别的模型加 ...

70b左右最近出了几个中等尺寸moe模型，可以用cpu+显卡混合推理跑，比原来一般显卡上跑的70b成本低还快得多，llama3的70b太老了，能力已经被新的拉开了。比如腾讯的混元80ba13b，配个5070ti的话，双通道ddr5 6400上应该能跑到10token/s出头，双通道8800应该能到15左右，昨天智谱那个106b a12b速度应该也类似

页: 1 2 3 [4]

Chiphell - 分享与交流用户体验's Archiver