找回密码
 加入我们
搜索
      
查看: 24949|回复: 134

[装机] 领导让给公司搭个部署deepseek的机子,目标1k token/s

  [复制链接]
发表于 2025-2-5 16:12 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 海口天空 于 2025-2-5 16:22 编辑

有没有大神给个配置,谢谢
————————————-
补充一下,部署完整版671b的deepseek
发表于 2025-3-10 14:05 | 显示全部楼层
这个得至少nvl36吧
发表于 2025-3-10 13:42 | 显示全部楼层
插个眼,免得哪天被问
发表于 2025-3-10 13:27 | 显示全部楼层
纯搞笑的
发表于 2025-3-9 09:40 | 显示全部楼层
一个敢问,一个敢接
发表于 2025-3-9 09:29 | 显示全部楼层
manwomans 发表于 2025-2-5 16:39
自己部署的又不能联网搜索
直接api不香嘛

问下 api 可以喂自己的数据吗
发表于 2025-3-9 03:13 来自手机 | 显示全部楼层
小李啊,听说最近有个那个什么deepseek啊,还是满血版的,今天你去仓库把报废的办公电脑搬一台回来装上,明天给全集团的人都用起来啊。
发表于 2025-3-9 02:54 | 显示全部楼层
你们领导是真不懂 还是他真的全权交给你来?
发表于 2025-3-9 02:24 | 显示全部楼层
估计你领导就是那种5万块钱做一个淘宝的那种。
发表于 2025-3-9 02:09 | 显示全部楼层
组装还是租赁啊  都可以找我不知道能不能发广告
发表于 2025-2-10 17:32 | 显示全部楼层
星空小琛 发表于 2025-2-7 23:52
按照去年低我询价结果,算上配套800+了

4台atlas 800T A2,2台8865 4c,1台S5731,1台小NAS
发表于 2025-2-10 17:27 | 显示全部楼层

现在一台8卡都160万了
发表于 2025-2-10 17:12 | 显示全部楼层
吹牛贴一堆人争着回
发表于 2025-2-10 17:00 | 显示全部楼层

对标B200的机器。

但这个比较实在是太狡猾了,实际满足阅读速度的其实是556tps@32个会话,超过32个会话就会大幅下降。3500tps是开2000个会话,每个会话1.7tps。

amd还是一把宣传的好手。
发表于 2025-2-10 16:48 | 显示全部楼层
测评供参考。
图片1.png 593af2a7gy1hyfdd0h9l7j22dc3z87wh.jpg
发表于 2025-2-9 13:38 | 显示全部楼层
这帖水的有水平
发表于 2025-2-9 09:34 | 显示全部楼层
1000token/s,楼主来错地方了
发表于 2025-2-9 06:29 | 显示全部楼层
NVIDIA HGX H200 (8张H200) ,大约30万美元, 每秒 3000 token
发表于 2025-2-7 23:52 | 显示全部楼层

按照去年低我询价结果,算上配套800+了
发表于 2025-2-7 22:48 | 显示全部楼层
现在说啥都带一句DS才显得入流。前面几个主流国产的都没用过的人,都是来测热闹流量的额。。

蹲一个后续,成了记得晒贴。
发表于 2025-2-7 22:44 | 显示全部楼层
星空小琛 发表于 2025-2-7 22:42
是的,今天正好看到省公司准备搞满血版,有人问了下,32张910B

320万?
发表于 2025-2-7 22:42 | 显示全部楼层
allenxml 发表于 2025-2-6 00:28
910B3只能跑BF16精度的,需要4台8卡910B3起步

是的,今天正好看到省公司准备搞满血版,有人问了下,32张910B
发表于 2025-2-7 11:24 | 显示全部楼层
不懂的领导,问了不懂的员工,到论坛问了不懂的坛友,这结果可想而知...
发表于 2025-2-7 10:55 | 显示全部楼层
我觉得不如问收购Deepseek要多钱
发表于 2025-2-7 01:15 | 显示全部楼层
核心挑战
显存需求:

671B 参数模型(FP16 精度)需约 1.34TB 显存(每个参数占 2 字节)。

即使使用 INT8 量化,仍需约 671GB 显存,远超单卡显存容量。

计算吞吐量:

1K Token/s 的生成速度需极高的浮点算力(FP16 或 INT8)和极低延迟的通信带宽。

硬件配置方案
组件        推荐配置
GPU 型号        NVIDIA H100 80GB(支持 FP8 量化、高带宽显存)或 A100 80GB(性价比次选)
GPU 数量        至少 16~32 张 H100(通过模型并行+流水线并行+张量并行拆分模型)
互联网络        NVIDIA NVLink + InfiniBand HDR(200Gbps+,降低多卡通信延迟)
CPU/RAM        双路 AMD EPYC 或 Intel Xeon(64核+),512GB+ DDR5 内存
存储        NVMe SSD RAID(10TB+,高速加载模型权重)
电源/散热        定制化机架,支持 10kW+ 电源和液冷散热
关键技术优化
量化压缩:

使用 FP8/INT4 量化,显存需求可降至 335GB~168GB,但需框架支持(如 TensorRT-LLM)。

分布式推理:

模型并行:将模型层拆分到多张 GPU(如 671B 模型拆分为 16 个 42B 的子模块)。

流水线并行:按 token 生成阶段分片处理,提升吞吐量。

张量并行:将矩阵计算拆分到多卡(如每层注意力头分布到不同 GPU)。

推理框架:

使用 TensorRT-LLM、DeepSpeed-Inference 或 vLLM,支持动态批处理和显存优化。

通信优化:

通过 NVLink 3.0(900GB/s 带宽)和 InfiniBand 互联,减少多卡通信延迟。

性能估算
单 H100 的算力:约 67 TFLOPS(FP16 Tensor Core)

生成速度需求:

假设每个 token 需 1,000 次浮点操作(粗略估算),则 1K Token/s 需 1 PetaFLOPS(即 1,000 TFLOPS)。

需要至少 16 张 H100(16×67=1,072 TFLOPS),但实际需考虑通信和并行效率(通常打 30%~50% 折扣)。

最终建议:32 张 H100 集群,配合极致优化代码。

成本预估
组件        成本(估算)
32×H100 80GB        约
400
,
000

400,000 600,000
NVLink/InfiniBand        约 $50,000
服务器/散热        约 $50,000
总计       
500
,
000

500,000 700,000
简化版结论
最低配置:16×H100 80GB + NVLink/InfiniBand + 量化(FP8)。

目标速度:通过分布式并行和优化代码,可能接近 1K Token/s,但需牺牲部分模型精度。

实际限制:目前 671B 模型的本地部署成本极高,建议优先考虑云服务(如 AWS/Azure 的 H100 集群)。
发表于 2025-2-6 22:37 | 显示全部楼层
671b 1000token/s?

这H200都得带点规模

你问问你领导睡醒了没有
发表于 2025-2-6 22:17 | 显示全部楼层
我自横刀 发表于 2025-2-5 17:00
DeepSeek Coder是一个支持商业使用的代码大模型,以下是部署一套完整版全量671B的DeepSeek并达到1000token/ ...

8张H100跑不起来的,测过了
发表于 2025-2-6 22:17 | 显示全部楼层
我们这两天搭建全尺寸版本,用的2台8卡H100 GPU服务器,总计16张H100
发表于 2025-2-6 22:02 | 显示全部楼层
xy. 发表于 2025-2-5 16:24
这种级别的活, 如果需要问网友, 那么由你来做不合适.

的确,要不叫领导把这个工作分给别人,要不让他多花点钱买硬件。有671B需求的公司,应该说是集团公司,竟然跑这个论坛来问这个问题。。
结论就是:这个帖子是某xx的?
发表于 2025-2-6 20:57 | 显示全部楼层
没准儿LZ领导手里真就是攥着一个亿的装机预算花不出去,所以必须整个大活呢?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-8-28 04:20 , Processed in 0.014222 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表