KT的0.30方案满血R1，VRAM真只占用14GB的话，是不是5070ti/5080 16GB就够了？

最美时光 · 发表于 2025-2-21 15:19

性能相比4090D 24GB，会相差多少？

还有另外的那个可能性替代方案，
假如下半年发布的M5系确如传言将CPU与GPU分开的话，是否等同于不再使用统一内存？
那么上半年的M4 Ultra将是末代最大统一内存方案？

老饭 · 发表于 2025-2-21 15:23

关键是非服务器都插不下那么多内存吧。ddr5又贵，regecc ddr4倒是便宜，64g 250

bingshitian · 发表于 2025-2-21 15:26

M5不用统一内存了，消息准确吗？在ai的浪潮下，为啥不继续统一内存呢？

Mashiro_plan_C · 发表于 2025-2-21 15:27

一夜之间人均靠AI吃饭是个帖子都在AI

大头吃小头 · 发表于 2025-2-21 15:27

老饭发表于 2025-2-21 15:23
关键是非服务器都插不下那么多内存吧。ddr5又贵，regecc ddr4倒是便宜，64g 250

ddr4带宽不够用
kt方案要么是epyc 12通道d5力大砖飞要么是用那个什么志强8通道内存再加上它的amx指令集啥的

mdeu · 发表于 2025-2-21 15:28

你有没有发现，上下文输入后显存一会涨一点，14G太极限了，上下文一长就爆了，既然是R1了，还是最好是20-24GB

最美时光 · 发表于 2025-2-21 17:47

bingshitian 发表于 2025-2-21 15:26
M5不用统一内存了，消息准确吗？在ai的浪潮下，为啥不继续统一内存呢？

说是将二者分开可以提高良率。没有官方说法，不过都这么说。

最美时光 · 发表于 2025-2-21 17:49

mdeu 发表于 2025-2-21 15:28
你有没有发现，上下文输入后显存一会涨一点，14G太极限了，上下文一长就爆了，既然是R1了，还是最好是20-24 ...

超过16GB就是一大分水岭。选择少很多。

MikuLuka · 发表于 2025-2-21 17:52

AI395+也是统一内存，最大128所以看有没有ROCm生态了

mdeu · 发表于 2025-2-21 17:53

本帖最后由 mdeu 于 2025-2-21 17:55 编辑

最美时光发表于 2025-2-21 17:49
超过16GB就是一大分水岭。选择少很多。

故意的啊，最近几代不买90压根没有大显存n卡能买，这代在90都给到32的情况下，80都咬死16g，反倒是笔记本的5090给了24g，基本就是明示5080s可以给24g但是得看有没有必要

最美时光 · 发表于 2025-2-21 17:53

老饭发表于 2025-2-21 15:23
关键是非服务器都插不下那么多内存吧。ddr5又贵，regecc ddr4倒是便宜，64g 250

消费级很快可以组64GB*4，2bit量化的版本、再加个16GB显卡要是可以用kt方案，就广泛实用了。

最美时光 · 发表于 2025-2-21 17:57

MikuLuka 发表于 2025-2-21 17:52
AI395+也是统一内存，最大128所以看有没有ROCm生态了

感觉ai395+比苹果还贵，是错觉吗

MikuLuka · 发表于 2025-2-21 18:00

最美时光发表于 2025-2-21 17:57
感觉ai395+比苹果还贵，是错觉吗

现在只有华硕独占呀，参考之前的移动端7945HX 7940HX 7945X3D 放量之后国产NUC厂商和MODT产品，MINI4可以租AI运算阵列你能装乌班图到时候AI395+的盒子应该也能那么玩外带395+的那个GPU性能好像看测评还不错

wen_1999_1999 · 发表于 2025-2-21 18:02

Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI

和人均5090一样，幸存者偏差。。。

老饭 · 发表于 2025-2-21 18:52

最美时光发表于 2025-2-21 17:53
消费级很快可以组64GB*4，2bit量化的版本、再加个16GB显卡要是可以用kt方案，就广泛实用了。 ...

最大256还是不够啊

Koin · 发表于 2025-2-21 18:55

最美时光发表于 2025-2-21 17:53
消费级很快可以组64GB*4，2bit量化的版本、再加个16GB显卡要是可以用kt方案，就广泛实用了。 ...

内存容量和内存通道不是一个概念啊，就这消费级的双通道伪4通道速度还是差很多吧。

最美时光 · 发表于 2025-2-21 21:01

老饭发表于 2025-2-21 18:52
最大256还是不够啊

kt团队说是在做unsloth相关的优化了，那是不是可能2bit左右的量化也能用上kt的方法来提高性能了呢？那192GB以上就可以受益了。

KimmyGLM · 发表于 2025-2-21 21:03

max_new_tokens 4000 以内，8K有B站水友反馈就会爆显存；
不可以搞长上下文推理。

最美时光 · 发表于 2025-2-21 21:04

Koin 发表于 2025-2-21 18:55
内存容量和内存通道不是一个概念啊，就这消费级的双通道伪4通道速度还是差很多吧。 ...

差很多，不过，Pc主要面向单用户使用，要求不会太高，10tokens左右就进入勉强可用状态了。

KimmyGLM · 发表于 2025-2-21 21:09

Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI

B站现在热搜区可以去看看。哈哈
丰俭由人，玩法丰富，还有顶级团队在GITHUB上交流

最美时光 · 发表于 2025-2-21 21:09

KimmyGLM 发表于 2025-2-21 21:03
max_new_tokens 4000 以内，8K有B站水友反馈就会爆显存；
不可以搞长上下文推理。 ...

16GB不够就有点麻烦了，9070xtx 32GB也得等ROCm生态，目前kt那些版本都是基于cuda的，规避不了nvidia。

darkness66201 · 发表于 2025-2-21 21:12

最美时光发表于 2025-2-21 21:04
差很多，不过，Pc主要面向单用户使用，要求不会太高，10tokens左右就进入勉强可用状态了。 ...

讲道理现在的模型还是太过于智障，废话太多，人说话和精读一秒也就几个字，甚至可能一个字都不到，如果AI模型能做到这种简要的程度一两个token 就已经完全够用了。

KimmyGLM · 发表于 2025-2-21 21:13

最美时光发表于 2025-2-21 21:09
16GB不够就有点麻烦了，9070xtx 32GB也得等ROCm生态，目前kt那些版本都是基于cuda的，规避不了nvidia。 ...

买完服务器平台我实在没多少预算了

KT 要求marlin算子，flash attention2 只能是安倍架构以后的新卡，30系矿太多，不太敢。
只能去鱼里面淘了一张4060ti 16G 先凑合用，
等后面50系慢慢铺货价格降下来再换新的。

最美时光 · 发表于 2025-2-21 21:15

Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI

没办法，热点要是在论坛不热，那这热点还是热点吗，这论坛还是论坛吗？何况chh还是不时被出口的存在～

KimmyGLM · 发表于 2025-2-21 21:23

darkness66201 发表于 2025-2-21 21:12
讲道理现在的模型还是太过于智障，废话太多，人说话和精读一秒也就几个字，甚至可能一个字都不到，如果AI ...

对话只是闲暇玩玩的
LLAMA 只是工具，后续如果接入私有知识库（尤其是高效的），会非常强大。
等于一个私有定制定向的搜索引擎

最美时光 · 发表于 2025-2-21 21:36

KimmyGLM 发表于 2025-2-21 21:23
对话只是闲暇玩玩的
LLAMA 只是工具，后续如果接入私有知识库（尤其是高效的），会非常强大。
等于一个私 ...

私有知识库相当有意义，哪些是高效又可以自己部署的？
我目前用的硅基baai/bge-m3，下一步准备看看maxkb，有什么好的推荐？

最美时光 · 发表于 2025-2-21 21:42

KimmyGLM 发表于 2025-2-21 21:13
买完服务器平台我实在没多少预算了
KT 要求marlin算子，flash attention2 只能是安倍架构以后的新卡，30 ...

你已经动手了啊？强过好多人了。你用的i家amx，还是a家的avx512？内存也是一笔不小的投入。

8xwob3ko · 发表于 2025-2-21 22:21

KimmyGLM 发表于 2025-2-21 21:23
对话只是闲暇玩玩的
LLAMA 只是工具，后续如果接入私有知识库（尤其是高效的），会非常强大。
等于一个私 ...

现在也有支持私有知识库的云端部署产品，就是基本只面相商用

ONEChoy · 发表于 2025-2-21 22:31

Mashiro_plan_C 发表于 2025-2-21 15:27
一夜之间人均靠AI吃饭是个帖子都在AI

真的挺烦。。。这帮a本地i啥时候到头啊。。。16g你也凑热闹图啥呀。。。

bingshitian · 发表于 2025-2-24 08:00

mdeu 发表于 2025-2-21 17:53
故意的啊，最近几代不买90压根没有大显存n卡能买，这代在90都给到32的情况下，80都咬死16g，反倒是笔记本 ...

你这么一说，突然感觉明年的5080S可以等等啦

账号		自动登录	找回密码
密码			加入我们

[显卡] KT的0.30方案满血R1，VRAM真只占用14GB的话，是不是5070ti/5080 16GB就够了？

浏览过的版块