g7muik
发表于 2025-2-6 12:04
你这个需求要上个 h200 集群
qdzx123
发表于 2025-2-6 13:33
楼主能回复一下什么情况吗
是参数搞错了 还是真这么富裕[流泪]
qdzx123
发表于 2025-2-6 13:38
我輩樹である 发表于 2025-2-5 17:08
这么大预算居然来网上找方案。没打过这么富裕的仗。
要达到1000t,肯定不是单个session 1000t,比如100个s ...
我有个问题 真的能达到80% 这个80%指的是?
qdzx123
发表于 2025-2-6 13:39
af_x_if 发表于 2025-2-5 18:38
不用那么着急的,一年后可能deepseek最强模型的规模上千b了,同时那个模型的72b蒸馏也跟R1有来有回了。
先a ...
真的有来有回吗 求详细测试
和量化原版比谁更好
qdzx123
发表于 2025-2-6 13:47
zm335148 发表于 2025-2-5 21:10
今天看了下,671B建议4X A100 512G内存
您好 不够 这样只能跑4位
4位好像都不够
a100只有80g版
我輩樹である
发表于 2025-2-6 13:50
其实我觉得楼主也不是在开玩笑,如果利用率10%,那么花1000万可以解决千人级别公司使用大模型的问题,本地部署还附带数据不上网、马赛克少的优点,不如说还算比较划算。
只是部署的是动态1.58bit的。
湿求了鸭
发表于 2025-2-6 13:55
gb200请[偷笑]
我輩樹である
发表于 2025-2-6 14:05
qdzx123 发表于 2025-2-6 13:38
我有个问题 真的能达到80% 这个80%指的是?
愤怒的小鸟生成测试,[偷笑]其实没什么参考价值,混淆视听的说法。
hjmfun
发表于 2025-2-6 14:25
b200 先来个16张,估计需要8位数
xjr12000
发表于 2025-2-6 14:54
事实上,你的要求更适合去买LPU来实现
用这种推理专用LPU,成本会下降至少一半
Darylyexu
发表于 2025-2-6 15:20
八位数,下一个
af_x_if
发表于 2025-2-6 16:40
qdzx123 发表于 2025-2-6 13:39
真的有来有回吗 求详细测试
和量化原版比谁更好
现在当然对未来是预测,根据的是ai目前有个类似摩尔定律的规律,就是同样性能的模型每一百天规模减半。
qp6g3o
发表于 2025-2-6 16:43
信口开河么?预算和到位时间,也没说
lnron
发表于 2025-2-6 17:24
领导逗你玩,或者压根不懂。
TFqbso
发表于 2025-2-6 17:24
YsHaNg 发表于 2025-2-5 18:15
谁说不能
请问一下,这个用的是哪个软件? 需要楼梯吗
YsHaNg
发表于 2025-2-6 17:51
TFqbso 发表于 2025-2-6 09:24
请问一下,这个用的是哪个软件? 需要楼梯吗
ollama的前端 https://docs.openwebui.com/ 我docker装的因为打包了ollama 不知道你
docker run -d --gpus=all ghcr.io/open-webui/open-webui:ollama
声色茶马
发表于 2025-2-6 20:57
没准儿LZ领导手里真就是攥着一个亿的装机预算花不出去,所以必须整个大活呢?
Noctis_Lunafrey
发表于 2025-2-6 22:02
xy. 发表于 2025-2-5 16:24
这种级别的活, 如果需要问网友, 那么由你来做不合适.
的确,要不叫领导把这个工作分给别人,要不让他多花点钱买硬件。有671B需求的公司,应该说是集团公司,竟然跑这个论坛来问这个问题。。
结论就是:这个帖子是某xx的?
shanzhu2016
发表于 2025-2-6 22:17
我们这两天搭建全尺寸版本,用的2台8卡H100 GPU服务器,总计16张H100
shanzhu2016
发表于 2025-2-6 22:17
我自横刀 发表于 2025-2-5 17:00
DeepSeek Coder是一个支持商业使用的代码大模型,以下是部署一套完整版全量671B的DeepSeek并达到1000token/ ...
8张H100跑不起来的,测过了
mdeu
发表于 2025-2-6 22:37
671b 1000token/s?
这H200都得带点规模
你问问你领导睡醒了没有
szjzll
发表于 2025-2-7 01:15
核心挑战
显存需求:
671B 参数模型(FP16 精度)需约 1.34TB 显存(每个参数占 2 字节)。
即使使用 INT8 量化,仍需约 671GB 显存,远超单卡显存容量。
计算吞吐量:
1K Token/s 的生成速度需极高的浮点算力(FP16 或 INT8)和极低延迟的通信带宽。
硬件配置方案
组件 推荐配置
GPU 型号 NVIDIA H100 80GB(支持 FP8 量化、高带宽显存)或 A100 80GB(性价比次选)
GPU 数量 至少 16~32 张 H100(通过模型并行+流水线并行+张量并行拆分模型)
互联网络 NVIDIA NVLink + InfiniBand HDR(200Gbps+,降低多卡通信延迟)
CPU/RAM 双路 AMD EPYC 或 Intel Xeon(64核+),512GB+ DDR5 内存
存储 NVMe SSD RAID(10TB+,高速加载模型权重)
电源/散热 定制化机架,支持 10kW+ 电源和液冷散热
关键技术优化
量化压缩:
使用 FP8/INT4 量化,显存需求可降至 335GB~168GB,但需框架支持(如 TensorRT-LLM)。
分布式推理:
模型并行:将模型层拆分到多张 GPU(如 671B 模型拆分为 16 个 42B 的子模块)。
流水线并行:按 token 生成阶段分片处理,提升吞吐量。
张量并行:将矩阵计算拆分到多卡(如每层注意力头分布到不同 GPU)。
推理框架:
使用 TensorRT-LLM、DeepSpeed-Inference 或 vLLM,支持动态批处理和显存优化。
通信优化:
通过 NVLink 3.0(900GB/s 带宽)和 InfiniBand 互联,减少多卡通信延迟。
性能估算
单 H100 的算力:约 67 TFLOPS(FP16 Tensor Core)
生成速度需求:
假设每个 token 需 1,000 次浮点操作(粗略估算),则 1K Token/s 需 1 PetaFLOPS(即 1,000 TFLOPS)。
需要至少 16 张 H100(16×67=1,072 TFLOPS),但实际需考虑通信和并行效率(通常打 30%~50% 折扣)。
最终建议:32 张 H100 集群,配合极致优化代码。
成本预估
组件 成本(估算)
32×H100 80GB 约
400
,
000
400,000 600,000
NVLink/InfiniBand 约 $50,000
服务器/散热 约 $50,000
总计
500
,
000
500,000 700,000
简化版结论
最低配置:16×H100 80GB + NVLink/InfiniBand + 量化(FP8)。
目标速度:通过分布式并行和优化代码,可能接近 1K Token/s,但需牺牲部分模型精度。
实际限制:目前 671B 模型的本地部署成本极高,建议优先考虑云服务(如 AWS/Azure 的 H100 集群)。
TincoJ
发表于 2025-2-7 10:55
我觉得不如问收购Deepseek要多钱
zlcrxp
发表于 2025-2-7 11:24
不懂的领导,问了不懂的员工,到论坛问了不懂的坛友,这结果可想而知...
星空小琛
发表于 2025-2-7 22:42
allenxml 发表于 2025-2-6 00:28
910B3只能跑BF16精度的,需要4台8卡910B3起步
是的,今天正好看到省公司准备搞满血版,有人问了下,32张910B[偷笑]
lyys
发表于 2025-2-7 22:44
星空小琛 发表于 2025-2-7 22:42
是的,今天正好看到省公司准备搞满血版,有人问了下,32张910B
320万?[偷笑]
shiho
发表于 2025-2-7 22:48
现在说啥都带一句DS才显得入流。前面几个主流国产的都没用过的人,都是来测热闹流量的额。。
蹲一个后续,成了记得晒贴。
星空小琛
发表于 2025-2-7 23:52
lyys 发表于 2025-2-7 22:44
320万?
按照去年低我询价结果,算上配套800+了
暂时是猫
发表于 2025-2-9 06:29
NVIDIA HGX H200 (8张H200) ,大约30万美元, 每秒 3000 token
herbertyang
发表于 2025-2-9 09:34
1000token/s,楼主来错地方了