领导让给公司搭个部署deepseek的机子,目标1k token/s
本帖最后由 海口天空 于 2025-2-5 16:22 编辑有没有大神给个配置,谢谢
————————————-
补充一下,部署完整版671b的deepseek 本帖最后由 Barcelona 于 2025-2-5 16:32 编辑
[震惊]选定具体哪个模型再说吧
我的妈,要部署1.3TB的原版模型啊 [偷笑]这个数量级,六位数打个底先吧 671B? 模型用那个,1.5b和671b区别不要太大 671b 1000token/s? xy. 发表于 2025-2-5 16:15
671B?
是的是的 psps3 发表于 2025-2-5 16:17
671b 1000token/s?
是的是的 各路游走 发表于 2025-2-5 16:16
模型用那个,1.5b和671b区别不要太大
671b的哈 直接问dp不更好[再见] xyk456as 发表于 2025-2-5 16:14
这个数量级,六位数打个底先吧
加个零都不够 海口天空 发表于 2025-2-5 16:20
是的是的
这种级别的活, 如果需要问网友, 那么由你来做不合适. 本帖最后由 a010301208 于 2025-2-5 16:29 编辑
1000不难,H200就够了,就是671b的话显存不够,如果一定要跑FP16的话买18张A800吧[狂笑] 多大的公司跑671b?我怀疑领导给的预算跑71b都跑不动 你要问他给多少预算 别就给几个W 问他预算别就给几个W 买个平台都不够。。。别说计算卡了
正式平台可不便宜别拿闲鱼来参考 671b全量模型、1k tokens/s?我滴妈,什么神仙公司?7-8位数打底吧 一般这种都是找供应商解决的,蹲一个后续看看 至少3~4个8卡节点,就算捡垃圾也得100万起了 我问了gemini,他说要:
GPU: 至少 8 块 NVIDIA A100 80GB 或 H100 80GB。 这取决于模型的实际内存占用和DeepSpeed的优化策略,如果内存占用高于8块GPU的总内存,需要增加GPU数量。 H100性能更强,但价格更高。 A100也是一个不错的选择,更易于获取。 671b只能是通过6-8张A100/H100或者阉割版的A800/H800来流畅运行,不过我觉得你司应该承担不起这个价格[偷笑] nvl 72 3872tokens /s 参考下。 我问了下** 你这个需求需要1000W[偷笑]
项目 单价(美元) 数量 小计(美元) 小计(人民币)
GPU $35,000 32 $1,120,000 约 780 万
服务器 $22,000 4 $88,000 约 62 万
电源与散热 $2,000 4 $8,000 约 5.6 万
机柜与配件 $5,000 2 $10,000 约 7 万
网络设备 - - $100,000 约 70 万
数据中心 - - $50,000 - $70,000 约 35 - 50 万
部署与人力 - - $141,000 约 100 万
软件工具 - - $0 - $24,000 开源或免费
总计 - - $1,570,000 - $1,660,000 约 1100 - 1200 万 自己部署的又不能联网搜索
直接api不香嘛 反正8卡H100是完全达不到。80卡都困难。 longfacocolo 发表于 2025-2-5 16:23
直接问dp不更好
问不了了大多数时候是无响应 有个帖子不是提到上大内存可破,虽然cpu速度慢。 帮你问过DEEPSEEK了,看看吧
要实现 DeepSeek R1 671B 完整版的本地部署,并达到 1000 token/s 的推理速度,需综合考虑硬件配置、量化技术、成本投入等多方面因素。根据搜索结果中的信息,当前技术条件下需注意以下关键点:
一、核心挑战与可行性分析
模型规模与硬件需求
完整版 DeepSeek R1 671B 是混合专家模型(MoE),未经压缩的原始模型体积达 720GB135。
动态量化后模型可压缩至 131GB(1.58-bit)至 404GB(4-bit),但量化版本对推理速度和模型性能有直接影响13。
内存+显存总需求:1.58-bit 量化需 ≥200GB,4-bit 需 ≥500GB15。
当前性能基准
高配工作站(四路 RTX 4090 + 384GB 内存):短文本生成速度为 7-8 token/s(1.73-bit 量化),4-bit 版本仅 2-4 token/s13。
云 GPU(如双 H100 80GB):速度可达 10+ token/s15。
目标 1000 token/s:需 数量级提升,远超当前主流硬件能力,需特殊优化或超大规模并行架构。
二、实现 1000 token/s 的潜在方案与成本
方案 1:超大规模 GPU 集群
硬件需求
使用 多张 H100 80GB GPU(单卡显存 80GB,支持 NVLink 互联),每卡加载更多模型层。
根据量化版本不同,需 数十至上百张 H100 并行处理,结合分布式推理框架(如 vLLM、TGI)12。
内存带宽需极高(如 24×16GB DDR5 服务器)5。
成本估算
硬件购置:单张 H100 成本约 3.5~4 万美元,假设需 50 张,则硬件成本约 175~200 万美元(不含服务器、网络、存储等)。
云租赁:按每小时 4~5 美元/卡 计算,50 张 H100 每小时成本约 200~250 美元,月成本约 14.4~18 万美元15。
方案 2:专用硬件加速器
使用 Cerebras 或 Graphcore IPU
针对大模型优化的专用芯片可提升吞吐量,但需定制化部署,成本更高。
参考案例:Cerebras 集群部署千亿模型,单次训练成本达数百万美元,推理成本类似12。
方案 3:混合优化策略
模型分割与流水线并行
将模型层分配到多台服务器,结合 CPU-GPU 混合推理,但需复杂工程优化。
需 高内存带宽服务器(如 2TB 内存) 支持长上下文缓存12。
三、成本对比与建议
方案 硬件配置 速度(token/s) 成本(估算)
单台 Mac Studio 192GB 统一内存 10~15 约 5600 美元1
双 H100 云服务器 2×80GB 显存 10~20 4~5 美元/小时1
大规模 H100 集群 50×H100 + 高带宽内存 1000+ 200 万美元+(购置)
专用加速器集群 Cerebras/Graphcore 1000+ 500 万美元+(定制)
四、结论与优化建议
目标调整:目前 1000 token/s 的吞吐量在常规硬件下极难实现,建议降低预期至 100~200 token/s,或采用分布式推理+低精度量化(如 1.58-bit)35。
成本优化:
选择 1.58-bit 量化模型(131GB),结合云 GPU 按需扩展1。
探索 MoE 模型动态路由优化,减少计算冗余12。
长期规划:关注 下一代 GPU(如 Blackwell 架构) 或 AI 专用芯片,可能在未来 1~2 年内降低部署成本。
若坚持 1000 token/s 目标,建议联系硬件厂商(如 NVIDIA、Cerebras)定制方案,并预留 200~500 万美元 预算。 几千万的采购项目,领导就让你来论坛问
逗人开心呢? DeepSeek Coder是一个支持商业使用的代码大模型,以下是部署一套完整版全量671B的DeepSeek并达到1000token/sec性能大致所需的配置和预算分析:
硬件配置
- 服务器:需多台高性能服务器,每台服务器建议配置为Intel Xeon可扩展处理器,如8380或更高型号,512GB及以上DDR4或DDR5内存,以提供强劲的计算和数据处理能力。
- GPU:单台服务器需配备多个NVIDIA H100或A100 Tensor Core显卡,前者单精度算力可达312 TFLOPS,后者也有高达19.5 TFLOPS的单精度算力,一般需要8-16张GPU卡。
- 存储:需要大容量高速固态硬盘(SSD)组成的RAID阵列,如使用企业级的三星983DCT等,总容量要达到数TB甚至更高,以确保模型数据快速读写。
- 网络:配备万兆以太网接口及以上的网络设备,如支持万兆的交换机等,保障服务器间通信带宽。
软件配置
- 操作系统:选用Linux系统,如CentOS 7或Ubuntu 20.04等,稳定且对深度学习支持好。
- 深度学习框架:采用PyTorch或TensorFlow等主流框架,并根据DeepSeek要求配置相应版本。
- 驱动程序:安装NVIDIA官方最新的显卡驱动及CUDA工具包、CUDNN库,确保GPU性能充分发挥。
预算分析
- 硬件成本:高性能服务器单台约5-10万元,若需5台则约25-50万元;NVIDIA H100单张约30-40万元,按8张算需240-320万元;大容量SSD及RAID设备约5-10万元;万兆网络设备约2-5万元。总计约272-385万元。
- 软件成本:Linux系统开源免费,PyTorch和TensorFlow等深度学习框架开源免费,NVIDIA CUDA和CUDNN部分版本免费,总体软件成本低,主要是可能的技术支持与维护购买费用,每年约5-10万元。
- 运维成本:需专业运维人员,每年人力成本约20-30万元;服务器、GPU等设备功耗大,每月电费约2-5万元,一年约24-60万元,加上硬件设备折旧等其他成本,每年运维成本总计约44-90万元。
以上配置和预算为大致估算,实际会因市场波动、具体需求和技术更新等因素有所不同。