scpe 发表于 2025-7-28 22:47

bacu 发表于 2025-7-28 22:39
我装过的说一下,70b需要40G以上的显存跑,卡本身的能力反而不那么重要。性价比最高的是双7900XT,正好40G ...

70b-q4 48g显存也比较极限,拉一点上下文就爆了。非魔改4090的24g肯定只能爬了。非要装这个级别的模型加上大一点的上下文比较实际的选择是m2 ultra,不过也没什么性价比。

yszb 发表于 2025-7-29 07:35

浪龙 发表于 2025-7-28 22:34
纯文字工作估计7B左右的模型就够了,可以看看智普的模型, 9B的效果就挺不错

差很远,工作上,至少32b,我用审稿和校对试验了一下

la814273 发表于 2025-7-29 08:31

本帖最后由 la814273 于 2025-7-29 08:35 编辑

scpe 发表于 2025-7-28 22:28
建议放弃,用过M3 ultra 512g的Mac studio跑满血DS Q4, 比API弱智一个数量级。傻一点不要命,关键是慢,p ...

这个是苹果或者lmstudio的问题,没默认开prompt cache吧,正常是不会的
性价比来说mac主要是省电,diy的性价比还是高不少,目前ds q4大概15000的配置能做到40t/s输入8-9t/s输出,再加两三千到一万七八能到80t/s输入9t/s输出(或者双路40t/s输入12-13t/s输出,两个方案价格差不多),四五万左右大概能到150t/s输入25t/s输出

wuxi001 发表于 2025-7-29 08:36

直接使用 ** 不香? 还要自己折腾大模型?再说了 Deepseek 开始倾倒大量垃圾和虚假信息。

zvcs 发表于 2025-7-29 08:48

你一万多块钱,可以买好多好多token了吧。。。。个人用用云服务最划算了

凹凸曼超凹凸 发表于 2025-7-29 08:52

卧槽,一万六买mac mini怎么想的啊,这价格买个mac studio吊打,就算是老的m2 max也吊打,不是一个规模的芯片和散热

gou123 发表于 2025-7-29 09:02

我印象里用APU最大能有96G显存的,有很多小巧的品牌机。

gou123 发表于 2025-7-29 09:13

Ryzen AI Max+ 395处理器,基于Zen 5架构打造,配备了16核心32线程,最高加速频率为5.1 GHz,总缓存容量80MB;核显为Radeon 8060S,基于RDNA 3.5架构打造,共有40组CU,拥有媲美移动端独显的图形性能;配备50 TOPS的NPU。

rainbow2003 发表于 2025-7-29 10:11

真的没必要。。。

bacu 发表于 2025-7-29 16:08

scpe 发表于 2025-7-28 22:47
70b-q4 48g显存也比较极限,拉一点上下文就爆了。非魔改4090的24g肯定只能爬了。非要装这个级别的模型加 ...

Q4 量化的版本是 40G,贴一下双 7900XTX 的实际速度,不快但能用,但比爆显存的 24G 4090 快多了(那个只有 3token/s):



la814273 发表于 2025-7-29 16:40

本帖最后由 la814273 于 2025-7-29 16:41 编辑

scpe 发表于 2025-7-28 22:47
70b-q4 48g显存也比较极限,拉一点上下文就爆了。非魔改4090的24g肯定只能爬了。非要装这个级别的模型加 ...

70b左右最近出了几个中等尺寸moe模型,可以用cpu+显卡混合推理跑,比原来一般显卡上跑的70b成本低还快得多,llama3的70b太老了,能力已经被新的拉开了。比如腾讯的混元80ba13b,配个5070ti的话,双通道ddr5 6400上应该能跑到10token/s出头,双通道8800应该能到15左右,昨天智谱那个106b a12b速度应该也类似
页: 1 2 3 [4]
查看完整版本: 最近我想本地部署deepseek真是魔怔了,大家看看这个跑70b模型速度怎么样