没看懂和单核性能啥关系.. ltpterry 发表于 2023-6-10 21:46
Emmm Deepspeed Overflow?
没看懂和单核性能啥关系..
我用的DeepSpeed 不支持多线程,只能单线程,因此我非常看重单线程性能;
Deepspeed Overflow用 fp16 跑时产生,用bf16跑就没有Overflow
godspeed66 发表于 2023-6-10 16:22
我用的DeepSpeed 不支持多线程,只能单线程,因此我非常看重单线程性能;
看懂了 这应该是和avx512-ifma52用dfp效果一样
pytorch相关的应该都可以多进程 YsHaNg 发表于 2023-6-11 01:58
看懂了 这应该是和avx512-ifma52用dfp效果一样
pytorch相关的应该都可以多进程...
但是 https://huggingface.co/docs/accelerate/v0.20.3/en/usage_guides/deepspeed中明确说 Current integration doesn’t support Pipeline Parallelism of DeepSpeed.
确实有人明确跟我说过,可以多线程,但在哪改呢? godspeed66 发表于 2023-6-10 19:35
但是 https://huggingface.co/docs/accelerate/v0.20.3/en/usage_guides/deepspeed中明确说 Current in ...
deepspeed不是很懂 我猜只是pipeline有限制 最原始的一次全分配在c stack上应该就不受限 不要在runtime搞dynamic
多线程限制我是猜测pytorch 毕竟py gil 你用标准库module起多进程就好了 不过也要考虑overhead值不值得这么做 看起来你都在搞low scale模型 ltpterry 发表于 2023-6-10 13:46
Emmm Deepspeed Overflow?
没看懂和单核性能啥关系..
他想用4代xeon bf16加速 桌面s平台不支持这玩意 我猜这东西可以自己build关掉的 不过不搞底层有钱可以一步到胃直接玩自己专精的 YsHaNg 发表于 2023-6-11 05:28
deepspeed不是很懂 我猜只是pipeline有限制 最原始的一次全分配在c stack上应该就不受限 不要在runtime搞 ...
非常感谢
我再继续学习下 godspeed66 发表于 2023-6-11 07:30
非常感谢
我再继续学习下
想法是好的 用硬件投入简化开发成本 [偷笑] 没人给出钱我是压根不会这么搞 zhuifeng88 发表于 2023-5-25 14:04
超微板子折腾了下(x13swa-tf), 没办法超过单核睿频上限, 想超单核估计还得买华硕的板子
但可以解锁全核频率 ...
回头看这个配置是非常正确的 YsHaNg 发表于 2023-6-11 05:32
他想用4代xeon bf16加速 桌面s平台不支持这玩意 我猜这东西可以自己build关掉的 不过不搞底层有钱可以一 ...
难怪,虽然没完全看懂
一路追过来我是没看懂楼主这个到底是不是吃单核了..
先收藏当追剧看 本帖最后由 zhuifeng88 于 2023-6-18 01:51 编辑
godspeed66 发表于 2023-5-25 14:59
非常感谢
新发现, x13swa可以超过最大单核睿频.... manual写的不明不白的我一直都没意识到那个选项的作用, 直到刚才重启的时候我手贱试了下是干嘛用的
5.2g单核的, (只有大星的核心能跑5.2, 其他核心不行), 多核是撞功耗墙的不用在意
zhuifeng88 发表于 2023-6-18 01:19
新发现, x13swa可以超过最大单核睿频.... manual写的不明不白的我一直都没意识到那个选项的作用, 直到刚 ...
大佬改的哪个配置呢?
页:
1
[2]