panzerlied
发表于 2025-1-19 10:21
archxm 发表于 2025-1-19 10:14
教主竟然要亲自翻文档
内存哥你属苍蝇的啊,大过年的这没话找话的。
tophnanfong
发表于 2025-1-19 12:17
那就买海外版咯
ghgfhghj
发表于 2025-1-19 15:12
sunchengqm 发表于 2025-1-18 20:24
我比较在意的是就算是5090,单16pin的情况下是不是也没法超频提升多少(毕竟线上限就600w)……又要等名人 ...
上代还有水神630w,不过单16pin就这么点了,40系的pcie不怎么取电的
wjm47196
发表于 2025-1-19 15:28
mythgo 发表于 2025-1-19 04:10
能介绍一下锁死多卡发细节吗?多卡在一张机器上是每张卡限制到4090d的算力还是其他卡全部算力归零?
如果多 ...
只能有一张工作。。。。
gmlee1999
发表于 2025-1-19 16:32
破发到1W5以下,游戏玩家个人AI跑跑挺不错的,也免去了专业工作室和黄牛的炒作。
fengpc
发表于 2025-1-19 17:40
testcb00 发表于 2025-1-18 19:44
ECC模式啊 科研必须用ECC
以前的科研超算是跑双精度,数据不能错所以要ECC。现在跑深度学习的,特别是transformer模型FP8、FP4这么低的精度都能用,有丁点数据错误对结果不影响的,而且GDDR5、GDDR6、GDDR7显存本来就有EDC,最容易出错的传输环节已经是带纠错的
fengpc
发表于 2025-1-19 17:46
xjr12000 发表于 2025-1-18 19:38
4090我估计最少7成都在跑算力用,真正用它打游戏,并且即使不打游戏了还留着不卖的,我估计很少
4090发布半 ...
如果是FP8、FP16精度训练LLM,砍tensor core对性能影响比较大。如果是用FP32全精度训练就没什么影响,FP32是用shader核心跑的。我们公司买4090D跑训练,速度就比30系快得多,不是训练LLM,就是一些CNN和transformer结合的模型,FP16训练超参调不好就容易炸,都是用FP32在训练。FP32训练尽管开就行,FP16就得时常盯着,炸了就得调学习率从异常位置再开始
fighte97
发表于 2025-1-20 11:19
yangzi123aaa20 发表于 2025-1-19 00:14
理论上来说只要有3gb颗粒对应的bios就能改,但是还不如指望老黄真出5090ti 48g呢 ...
这相当于施坦纳温克魏德林一起发动进攻[再见]
neavo
发表于 2025-1-20 11:30
fengpc 发表于 2025-1-19 17:46
如果是FP8、FP16精度训练LLM,砍tensor core对性能影响比较大。如果是用FP32全精度训练就没什么影响,FP3 ...
也就只有传统 CV、NLP 可以用 FP32 来训练了,LLM 或者 Diffusion 用全精度训练那太奢侈了 。。。
就爱TJ
发表于 2025-1-20 12:03
顺便提一嘴我们搞到了600W的BIOS但是也不能拉功率性能提升了一点(真的就是一点不多)
并联检流电阻可破功耗墙吗?[雷人]
我輩樹である
发表于 2025-1-20 12:54
本帖最后由 我輩樹である 于 2025-1-20 12:57 编辑
llm微调一般是fp16 lora,这里说的训练都是微调,预训练就想多了(一般用bf16),目前世界上能做预训练的厂家就那些(国内能做预训练且openweight的可以参考美国实体清单),没有游戏卡啥事,不是个人和local llm搞的。
local llm做推理一般是q4/q3/q2,精度下降的影响有但是有限,因为能装下更多参数和上下文才是最大化利用scaling law的关键。
文生图方面,目前微调一般使用fp32或者混合精度,推理用fp16或int8,nv搞了个flux,在跟comfyui合作准备把推理精度降到q4。
neavo
发表于 2025-1-20 13:01
我輩樹である 发表于 2025-1-20 12:54
llm微调一般是fp16 lora,这里说的训练都是微调,预训练就想多了(一般用bf16),目前世界上能做预训练的厂 ...
也不是只有 72B 才算 LLM, 现在的 1.5B 作为专项任务模型很多时候就已经表现很好了
比如 jinaai 最近这个信息抽取与格式化的模型 https://huggingface.co/jinaai/ReaderLM-v2
还有我自己的语义分析模型 https://huggingface.co/neavo/keyword_gacha_llm_1.5b_multilingual
后面这个是在 Qwen-2.5-1.5B 的基础上进行二次 PT 以后再 SFT 得来的,Continue Pretrain 是挺常见的领域优化策略,也没那么高门槛
我輩樹である
发表于 2025-1-20 13:06
neavo 发表于 2025-1-20 13:01
也不是只有 72B 才算 LLM, 现在的 1.5B 作为专项任务模型很多时候就已经表现很好了
比如 jinaai 最近这 ...
领域模型又不挑硬件,我自己train了几个esp32都可以跑。不是本帖的话题。
我輩樹である
发表于 2025-1-20 13:08
testcb00 发表于 2025-1-18 19:44
ECC模式啊 科研必须用ECC
科研也只有网格计算那种仿真才需要。深度学习模型本身就是大号纠错器。
nunnally
发表于 2025-1-20 13:19
既然3秒真男人,那就让程序控制它跑2.9s,歇0.1,如此循环岂不美哉
neavo
发表于 2025-1-20 13:19
我輩樹である 发表于 2025-1-20 13:06
领域模型又不挑硬件,我自己train了几个esp32都可以跑。不是本帖的话题。
esp32 也能跑的那也太小了 [生病]
我想表达的意思是实际上需求没有这么极端:并非除了打游戏就是训练大参数量模型
在这其中其实是有一个中间态的,之前大量的 4090、L40 之类卡其实也是用在这种场景上,这些需求才是撑起 4090 价格的主力
特别是在国内,游戏玩家的需求与之对比九牛一毛
如果真的锁了多卡,那这部分需求就不存在了,同时又不影响个人玩家兴趣爱好性质的单卡训练或者推理,挺好的
就看这个锁是怎么实现的,能不能穿透虚拟化识别到物理机上的多卡
我輩樹である
发表于 2025-1-20 13:26
neavo 发表于 2025-1-20 13:19
esp32 也能跑的那也太小了
我想表达的意思是实际上需求没有这么极端:并非除了打游戏就是训练大参数量 ...
现在torch deepspeed它们都用nccl的backend,说白了用nv的东西被锁是当然的。
那意味着自己发明一个轮子可能可以绕开nv的管制。我对这个就不期待了,我们实验室都开始用国产卡了。
大头吃小头
发表于 2025-1-20 13:29
我輩樹である 发表于 2025-1-20 13:26
现在torch deepspeed它们都用nccl的backend,说白了用nv的东西被锁是当然的。
那意味着自己发明一个轮子 ...
能透露一下用啥卡吗?
我輩樹である
发表于 2025-1-20 13:30
大头吃小头 发表于 2025-1-20 13:29
能透露一下用啥卡吗?
华为的。
neavo
发表于 2025-1-20 13:32
我輩樹である 发表于 2025-1-20 13:26
现在torch deepspeed它们都用nccl的backend,说白了用nv的东西被锁是当然的。
那意味着自己发明一个轮子 ...
理论上在虚拟化环境下,我把八卡机虚拟成8台单卡机然后走多机互联的模式,虽然效率差一点,但是也是可以工作的
毕竟驱动能接触到的信息并没有办法分辨自己所在的物理机上还有没有其他卡
所以我就挺好奇这个“锁死多卡”是怎么实现的,总不能检测到虚拟化环境直接ban卡吧 [生病]
如果只是物理机上通过驱动锁多卡,那等于没锁
我輩樹である
发表于 2025-1-20 13:37
neavo 发表于 2025-1-20 13:32
理论上在虚拟化环境下,我把八卡机虚拟成8台单卡机然后走多机互联的模式,虽然效率差一点,但是也是可以 ...
前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi,不知道还活着么。
neavo
发表于 2025-1-20 13:40
我輩樹である 发表于 2025-1-20 13:37
前提是要脱离nccl或者其他nv技术栈衍生出的技术吧。好像之前有个oepnmpi,不知道还活着么。 ...
我的意思是如果直通硬件虚拟成多台单卡机的话,nccl 也没办法知道这些“单卡机”实际上是同一台物理机上的虚拟机啊,最多再检查一下其他硬件设备的ID啥的来辅助判断一下,但是这都是小问题
我輩樹である
发表于 2025-1-20 13:46
neavo 发表于 2025-1-20 13:40
我的意思是如果直通硬件虚拟成多台单卡机的话,nccl 也没办法知道这些“单卡机”实际上是同一台物理机上 ...
不知道当前nccl怎么检查多卡的,但它想要做到不靠硬件信息来检测的手段有的是,加一些检测手段到驱动或nccl里面对nv来说太简单了。