找回密码
 加入我们
搜索
      
楼主: ux4d

[内存] 285k+192G内存+48G 4090+pm9a3怒战deepseek r1 2.51bit+Ktransformers

[复制链接]
发表于 2025-2-27 12:22 | 显示全部楼层
本帖最后由 松田 于 2025-2-27 12:29 编辑
KimmyGLM 发表于 2025-2-27 12:10
不太行,tr pro的理论带宽如下。还不如eypc 9135 这种入门16CCD 跑满带宽的划算。

站里帖子:https://ww ...


那还是7960X比较合算 (个人财力而言), 万来的CPU, 万来的板, 万来的RAM, 还要加上像样的GPU(ada6000或魔改4090),

如果用409048G的话也就可以把省下的钱分配回在7965X上


查看了一下, 您说的eypc 9135是个好东西
发表于 2025-2-27 12:40 | 显示全部楼层
ux4d 发表于 2025-2-27 12:00
qwen2.5 72b应该就是4bit量化跑的,因为跑8bit必定炸显存。5600双通道我这边带宽78G/s,你是不是少打了一 ...

对70GBT_T
脑子里已经在想4090 96G了哈哈,对的72b int8接近80G了吧好像。
72b 4bit量化体现不出24G4090的优势,我p100x4 vllm也有18-20tok/s output,但是出首token估计比4090差很多。

发表于 2025-2-27 12:57 来自手机 | 显示全部楼层
你跑5600 192G,这很正常。

我就不知道之前论坛里有个虾子非要说intel ultra2生产力内存跑8000 8800。

未必他192G跑8000 8800?
发表于 2025-2-27 12:58 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-27 13:01 编辑
panzerlied 发表于 2025-2-27 12:57
你跑5600 192G,这很正常。

我就不知道之前论坛里有个虾子非要说intel ultra2生产力内存跑8000 8800。


万一未来真的有cudimm 256g 8000套装呢?
只要不差钱,一切皆有可能,加点RGB,2w卖富哥
发表于 2025-2-27 12:59 | 显示全部楼层
家用双通道还是别折腾了,老老实实跑32B就挺好

发表于 2025-2-27 13:24 来自手机 | 显示全部楼层
前天用c612 2640v4 96G 内存加亮机卡试了试14b ,还能跑,现在想跑大的得搞张显卡才行。
 楼主| 发表于 2025-2-27 13:45 来自手机 | 显示全部楼层
q3again0605 发表于 2025-2-27 12:40
对70GBT_T
脑子里已经在想4090 96G了哈哈,对的72b int8接近80G了吧好像。
72b 4bit量化体现不出24G4090 ...

很牛的低成本实现4090出首tokens确实飞快,问题刚回车敲下去它就开始出字了
发表于 2025-2-27 15:04 | 显示全部楼层
ux4d 发表于 2025-2-27 13:45
很牛的低成本实现4090出首tokens确实飞快,问题刚回车敲下去它就开始出字了 ...

首token主要看算力,吐字主要看带宽。
发表于 2025-2-27 15:59 | 显示全部楼层
KimmyGLM 发表于 2025-2-27 10:44
折腾这个,比玩游戏带劲多了,哈哈哈哈。

哈哈,满满的成就感都快溢出屏幕了
发表于 2025-2-27 16:03 | 显示全部楼层
本帖最后由 声色茶马 于 2025-2-27 16:05 编辑
ux4d 发表于 2025-2-27 10:36
太对了哥,折腾这些东西不整epyc xeon没有前途,内存容量和内存带宽被双双爆杀 ...


看LZ这个配置,也是个不差钱的大佬。那赶紧双路EYPC 12通道1T内存走起。
发表于 2025-2-27 16:45 | 显示全部楼层
松田 发表于 2025-2-27 11:29
那组个最便宜的 7955WX, 可不可以呢, 也是8通, 反正CPU的使用度不高, 要的就是它的扩充能力 ...

如果要用TR pro, 不推荐用7955WX,推荐7965WX及以上。

7955wx的内存带宽是有被限制的由于2CCD(https://www.reddit.com/r/threadr ... mory_bandwidth_for/)。

7965wx及以上受限于内存速度,都是5200的话,7965wx到7995wx的内存带宽都只有240GB/s左右

要速度推荐四代以上可扩展志强或新的epyc
发表于 2025-2-27 16:51 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-27 17:06 编辑
LNT 发表于 2025-2-27 16:45
如果要用TR pro, 不推荐用7955WX,推荐7965WX及以上。

7955wx的内存带宽是有被限制的由于2CCD(https:// ...


但是,和Xeon W series 一样,内存可以OC 啊!轻松上个6000,内存带宽就300G了;
Tr pro 主要是可以兼顾日常使用,一台机器玩玩游戏,跑跑LLM;

归根结底,这玩意性价比不行,而且几乎没ES QS可玩,便宜的基本都是有锁的鸡肋。
同样是大单路的话,9174F, 9175F带宽更猛,单核睿频也有近5G ~

12通道的前提下
9005 2dpc 1r 理论带宽422.4G/s
9005 2dpc 2r 理论带宽 384G/s
9004 2dpc  理论带宽 345.6G/s
发表于 2025-2-27 17:21 | 显示全部楼层
KimmyGLM 发表于 2025-2-27 16:51
但是,和Xeon W series 一样,内存可以OC 啊!轻松上个6000,内存带宽就300G了;
Tr pro 主要是可以兼顾 ...

6000那个是超的,正常z6a,p8都是7995wx的话只有240GB/s不到

用ktransformer搭配9005跑671q4已经可以做到17tokens/s了

但我用7955wx+512G+4090只能跑6.2tokens/s,所以要搞还是不推荐tr pro
发表于 2025-2-27 17:27 来自手机 | 显示全部楼层
这个看起来很好玩的样子
发表于 2025-2-27 19:01 | 显示全部楼层
哈哈哈,楼主带宽看着和我差不多
可以跑下llama-bench的测试
我跑1.58b是 pp512 63.79 ± 0.09,tg128 4.29 ± 0.01
跑 1.73b因为进硬盘了,pp512 2.14 ± 0.01,tg128  3.47 ± 0.57
发表于 2025-2-27 19:18 | 显示全部楼层
Ktransformers不支持动态量化,unsloth也还没被支持吧
 楼主| 发表于 2025-2-27 19:25 来自手机 | 显示全部楼层
hawie 发表于 2025-2-27 19:18
Ktransformers不支持动态量化,unsloth也还没被支持吧

2.51bit那个可以,2.51bit这个和Q4量化的没有本质区别,再下面三个似乎带内存压缩,暂时不行。
发表于 2025-3-28 14:40 | 显示全部楼层
LZ,请教一下,2.51bit这个相当于Q2量化,比2.22bit的动态量化 精度有明显提升吗?我看unsloth官网只说The first 3 uses an importance matrix to calibrate the quantization process (imatrix via llama.cpp) to allow lower bit representations. The last 212GB version is a general 2bit quant with no calibration done.
另外,unsloth只给了了对应显存的层数权重分配,可是没有给出在这些分配过后,对内存那边的需求。
举例来说,他说32G显存,运行2.51bit,可以把5层放显存,那其他56层放内存, 假如带宽一样,285K搭配4*48G和4*64G的内存,运行起来速度会不会有明显区别? 还是说内存带宽在这摆着,内存容量已经不是很影响了,就是看能把多少层放显存了,比如48G显卡会比32G显卡速度有明显提升?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 04:07 , Processed in 0.011516 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表