2台8卡H100吧
你可以问下deepseek啊
这个事,去找幻方谈谈合作,搞个vip服务,是不是更合适一点。。
本帖最后由 我輩樹である 于 2025-2-5 17:10 编辑
这么大预算居然来网上找方案。没打过这么富裕的仗。
要达到1000t,肯定不是单个session 1000t,比如100个session,每个10-15t的速度是比较正常的场景。
根据目前网上的测试,最接近的场合是:
https://huggingface.co/unsloth/DeepSeek-R1-GGUF/discussions/9
在deepseek-r1 671b 1.58bit使用2xh100,可以达到单session 14-15t(达到阅读速度),总140t的速度。(unsloth宣称dynamic 1.58t模型可以达到原始模型fp16的80%性能)。
按照这个计算,大概需要14张左右的h100即可满足要求。一张h100国内大概30万人民币左右,加上其他设备费用可能在600-800w左右。
我輩樹である 发表于 2025-2-5 17:08
这么大预算居然来网上找方案。没打过这么富裕的仗。
要达到1000t,肯定不是单个session 1000t,比如100个s ...
我非常怀疑楼主的老板心目中的预算要少两个0
机器托管还是自己有机房?托管安全上麻烦,自己机房这规模风火水电玩得起么
我輩樹である 发表于 2025-2-5 17:08
这么大预算居然来网上找方案。没打过这么富裕的仗。
要达到1000t,肯定不是单个session 1000t,比如100个s ...
差不多,基本是奔着八位数人民币去了,我感觉楼主的领导应该对1k token/s没啥概念[偷笑]
等华为910c吧.....
1000 tokens/s ???多少预算啊。
你们明白这是啥概念吗?先不说别的,H200带宽4.8TB/s,意味着一张H200最多只加载4.8GB,完整671B权重按1.3T算,你得至少270张H200并行!!!说6位数7位数的,你们是认真的吗??
1000tokens?我听到了啥?
请直接联系deepseek采购部署业务
楼主消失了
我就吃这种助人为乐的隐形富裕帖,感觉特别得劲[傻笑]
世界真是个巨大的草台班子~~~~这么大的活,你不找专业公司报价????
1000tokens[偷笑]
本帖最后由 testmepro 于 2025-2-6 15:38 编辑
你们领导是不是对671b没啥概念?这玩意我大概算了下没几十万玩不转啊,好吧几十万我都说少了
manwomans 发表于 2025-2-5 08:39
自己部署的又不能联网搜索
直接api不香嘛
谁说不能
https://unsloth.ai/blog/deepseekr1-dynamic?mwg_rnd=9637111
用这个量化过的版本,671B的DeepSeekR1,从原版720GB缩减到131GB,可以2张H100, 140Token/s
公司已经部署上了,4张L40 48GB
什么海口公司这么牛逼啊[狂笑]
完整版,还1000token/s,你来错地方了。。
本论坛应该没有人部署过这个规模的算力集群。。
不用那么着急的,一年后可能deepseek最强模型的规模上千b了,同时那个模型的72b蒸馏也跟R1有来有回了。
先api用着,担心卡就去包个专线。
yan1990_y 发表于 2025-2-5 16:23
加个零都不够
6位数才10万,7位100万+,1k token,估计要几个7位数
21mm 发表于 2025-2-5 16:36
nvl 72 3872tokens /s 参考下。
这个 350w美金,还买不到
我觉得不用量化这件事一定概率说明需求方根本不清楚自己想要什么,就好像见过很多次的要求装一台剪辑机必须零卡顿剪AV1 VP9坚决不用代理一样
《搭个机子,deepseek 完整版 1k token/s》[困惑]
国内部署?买H20吧
果然非常的领导做派[偷笑]
你先问下你们老板身价多少!
[偷笑]笑死,本来心想671B用cpu跑也不是不行,再一看1000token的速度,怕不是你的领导在逗你玩
张口就来领导 + 张口就来楼主