285k+192G内存+48G 4090+pm9a3怒战deepseek r1 2.51bit+Ktransformers

松田 · 发表于 2025-2-27 12:22

本帖最后由松田于 2025-2-27 12:29 编辑

KimmyGLM 发表于 2025-2-27 12:10
不太行，tr pro的理论带宽如下。还不如eypc 9135 这种入门16CCD 跑满带宽的划算。

站里帖子：https://ww ...

那还是7960X比较合算 (个人财力而言), 万来的CPU, 万来的板, 万来的RAM, 还要加上像样的GPU(ada6000或魔改4090),

如果用409048G的话也就可以把省下的钱分配回在7965X上

查看了一下, 您说的eypc 9135是个好东西

q3again0605 · 发表于 2025-2-27 12:40

ux4d 发表于 2025-2-27 12:00
qwen2.5 72b应该就是4bit量化跑的，因为跑8bit必定炸显存。5600双通道我这边带宽78G/s，你是不是少打了一 ...

对70GBT_T
脑子里已经在想4090 96G了哈哈，对的72b int8接近80G了吧好像。
72b 4bit量化体现不出24G4090的优势，我p100x4 vllm也有18-20tok/s output，但是出首token估计比4090差很多。

panzerlied · 发表于 2025-2-27 12:57

提示: 作者被禁止或删除内容自动屏蔽

KimmyGLM · 发表于 2025-2-27 12:58

本帖最后由 KimmyGLM 于 2025-2-27 13:01 编辑

panzerlied 发表于 2025-2-27 12:57
你跑5600 192G，这很正常。

我就不知道之前论坛里有个虾子非要说intel ultra2生产力内存跑8000 8800。

万一未来真的有cudimm 256g 8000套装呢？
只要不差钱，一切皆有可能，加点RGB，2w卖富哥

uprit · 发表于 2025-2-27 12:59

家用双通道还是别折腾了，老老实实跑32B就挺好

jihu123 · 发表于 2025-2-27 13:24

前天用c612 2640v4 96G 内存加亮机卡试了试14b ,还能跑，现在想跑大的得搞张显卡才行。

ux4d · 发表于 2025-2-27 13:45

q3again0605 发表于 2025-2-27 12:40
对70GBT_T
脑子里已经在想4090 96G了哈哈，对的72b int8接近80G了吧好像。
72b 4bit量化体现不出24G4090 ...

很牛的低成本实现

4090出首tokens确实飞快，问题刚回车敲下去它就开始出字了

q3again0605 · 发表于 2025-2-27 15:04

ux4d 发表于 2025-2-27 13:45
很牛的低成本实现4090出首tokens确实飞快，问题刚回车敲下去它就开始出字了 ...

首token主要看算力，吐字主要看带宽。

散落烟灰 · 发表于 2025-2-27 15:59

KimmyGLM 发表于 2025-2-27 10:44
折腾这个，比玩游戏带劲多了，哈哈哈哈。

哈哈，满满的成就感都快溢出屏幕了

声色茶马 · 发表于 2025-2-27 16:03

本帖最后由声色茶马于 2025-2-27 16:05 编辑

ux4d 发表于 2025-2-27 10:36
太对了哥，折腾这些东西不整epyc xeon没有前途，内存容量和内存带宽被双双爆杀 ...

看LZ这个配置，也是个不差钱的大佬。那赶紧双路EYPC 12通道1T内存走起。

LNT · 发表于 2025-2-27 16:45

松田发表于 2025-2-27 11:29
那组个最便宜的 7955WX, 可不可以呢, 也是8通, 反正CPU的使用度不高, 要的就是它的扩充能力 ...

如果要用TR pro, 不推荐用7955WX，推荐7965WX及以上。

7955wx的内存带宽是有被限制的由于2CCD（https://www.reddit.com/r/threadr ... mory_bandwidth_for/）。

7965wx及以上受限于内存速度，都是5200的话，7965wx到7995wx的内存带宽都只有240GB/s左右

要速度推荐四代以上可扩展志强或新的epyc

KimmyGLM · 发表于 2025-2-27 16:51

本帖最后由 KimmyGLM 于 2025-2-27 17:06 编辑

LNT 发表于 2025-2-27 16:45
如果要用TR pro, 不推荐用7955WX，推荐7965WX及以上。

7955wx的内存带宽是有被限制的由于2CCD（https:// ...

但是，和Xeon W series 一样，内存可以OC 啊！轻松上个6000，内存带宽就300G了；
Tr pro 主要是可以兼顾日常使用，一台机器玩玩游戏，跑跑LLM；

归根结底，这玩意性价比不行，而且几乎没ES QS可玩，便宜的基本都是有锁的鸡肋。
同样是大单路的话，9174F, 9175F带宽更猛，单核睿频也有近5G ~

12通道的前提下
9005 2dpc 1r 理论带宽422.4G/s
9005 2dpc 2r 理论带宽 384G/s
9004 2dpc 理论带宽 345.6G/s

LNT · 发表于 2025-2-27 17:21

KimmyGLM 发表于 2025-2-27 16:51
但是，和Xeon W series 一样，内存可以OC 啊！轻松上个6000，内存带宽就300G了；
Tr pro 主要是可以兼顾 ...

6000那个是超的，正常z6a，p8都是7995wx的话只有240GB/s不到

用ktransformer搭配9005跑671q4已经可以做到17tokens/s了

但我用7955wx+512G+4090只能跑6.2tokens/s，所以要搞还是不推荐tr pro

lalabangbang · 发表于 2025-2-27 17:27

这个看起来很好玩的样子

一懒众衫小 · 发表于 2025-2-27 19:01

哈哈哈，楼主带宽看着和我差不多
可以跑下llama-bench的测试
我跑1.58b是 pp512 63.79 ± 0.09，tg128 4.29 ± 0.01
跑 1.73b因为进硬盘了，pp512 2.14 ± 0.01，tg128 3.47 ± 0.57

hawie · 发表于 2025-2-27 19:18

Ktransformers不支持动态量化，unsloth也还没被支持吧

ux4d · 发表于 2025-2-27 19:25

hawie 发表于 2025-2-27 19:18
Ktransformers不支持动态量化，unsloth也还没被支持吧

2.51bit那个可以，2.51bit这个和Q4量化的没有本质区别，再下面三个似乎带内存压缩，暂时不行。

望月 · 发表于 2025-3-28 14:40

LZ，请教一下，2.51bit这个相当于Q2量化，比2.22bit的动态量化精度有明显提升吗？我看unsloth官网只说The first 3 uses an importance matrix to calibrate the quantization process (imatrix via llama.cpp) to allow lower bit representations. The last 212GB version is a general 2bit quant with no calibration done.
另外，unsloth只给了了对应显存的层数权重分配，可是没有给出在这些分配过后，对内存那边的需求。
举例来说，他说32G显存，运行2.51bit，可以把5层放显存，那其他56层放内存，假如带宽一样，285K搭配4*48G和4*64G的内存，运行起来速度会不会有明显区别？还是说内存带宽在这摆着，内存容量已经不是很影响了，就是看能把多少层放显存了，比如48G显卡会比32G显卡速度有明显提升？

账号		自动登录	找回密码
密码			加入我们

panzerlied panzerlied 当前离线积分 4669	发表于 2025-2-27 12:57 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
panzerlied panzerlied 当前离线积分 4669
	回复举报

[内存] 285k+192G内存+48G 4090+pm9a3怒战deepseek r1 2.51bit+Ktransformers

浏览过的版块