找回密码
 加入我们
搜索
      
楼主: i6wz1l

[软件] 国内deepseek的api谁的最流畅

[复制链接]
发表于 2025-2-6 17:47 | 显示全部楼层
m40 24g不行吗,我看m40居然涨价了
发表于 2025-2-6 17:51 | 显示全部楼层
本帖最后由 edgeskypay 于 2025-2-6 17:56 编辑
wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么?


单模型部署方案对比
| 指标 | 7B-全负载模式 | 13B-平衡模式 | 33B-极限模式 |
|---------------------|--------------------|--------------------|--------------------|
| 量化方案 | **Q 4-bit | AWQ 3-bit | ExLlamaV2 4-bit |
| 并行策略 | 张量并行4-way | 混合并行(2TP+2PP) | 混合并行(4TP) |
| GPU分配 | 4卡全占用 | 4卡全占用 | 4卡全占用 |
| 显存占用/卡 | 5.2GB | 12.8GB | 15.4GB |
| 内存占用 | 320GB | 448GB | 496GB |
| 吞吐量 | 480-520 tokens/s | 220-260 tokens/s | 65-80 tokens/s |
| 首Token延迟 | 25-40ms | 80-120ms | 400-600ms |
| 最大上下文 | 128k tokens | 64k tokens | 32k tokens |
| 批处理能力 | 256请求 | 128请求 | 32请求 |
| 推荐学习率 | 2e-5 | 1e-5 | 5e-6 |
| 微调适配器 | 可加载8个LoRA | 可加载4个LoRA | 仅支持1个LoRA |

硬件利用率对比
| 资源类型 | 7B模式利用率 | 13B模式利用率 | 33B模式利用率 |
|----------------|-------------|--------------|--------------|
| GPU计算单元 | 92-95% | 85-88% | 75-78% |
| 显存带宽 | 98% | 95% | 90% |
| 内存带宽 | 80% | 92% | 96% |
| PCIe 3.0 x16 | 70% | 85% | 90% |
---

推荐组合:
  1. 主服务: 4x7B实例 (负载均衡)
     - 总吞吐: 1,300-1,400 tokens/s
     - 适用: 客服系统、API接口

  2. 精准服务: 2x13B实例 (热备)
     - 总吞吐: 300-360 tokens/s
     - 适用: 法律咨询、医疗问答

  3. 研究后台: 1x33B实例
     - 总吞吐: 45-60 tokens/s
     - 适用: 论文润色、剧本创作


我机器是E5-2680V4,512G,P100-16G*4,让DS出了个算力预估。。。准备折腾下。
发表于 2025-2-6 18:44 | 显示全部楼层
bennq 发表于 2025-2-6 08:06
满血版  nvdia NIM速度最快,比官网快,蒸馏的智商太低就不用了

nv大善人 nim注册送1000tokens 速度很起飞很稳
发表于 2025-2-6 18:54 | 显示全部楼层
wosell 发表于 2025-2-6 17:43
跑推理模型双卡有用么?

只是共享显存,起码跑deepseek 是这样子的
发表于 2025-2-6 19:26 | 显示全部楼层
现在ds的网络环境和流量,API节后应该会优化服务器和增加网络安全后开放吧
发表于 2025-2-6 21:31 | 显示全部楼层
i6wz1l 发表于 2025-2-6 10:57
咸鱼看了一下 要2w了

这么便宜?我一直以为要3w+,2w的话倒是可以考虑弄一张。
发表于 2025-2-6 23:14 | 显示全部楼层
咸鱼125买了三千万的满血版本次数
发表于 2025-2-10 21:52 | 显示全部楼层
风采 发表于 2025-2-6 23:14
咸鱼125买了三千万的满血版本次数

也想买,请问能稳定使用不
发表于 2025-2-10 21:55 | 显示全部楼层
试了一圈各家满血r1,目前阿里云的比较让人满意,没出现过不能服务的问题。但是有个问题阿里云的模型好像思考过程过于啰嗦,问个问题他能想5分钟,thinking部分输出上万字
发表于 2025-2-10 22:04 | 显示全部楼层
erneenre 发表于 2025-2-10 21:52
也想买,请问能稳定使用不

很稳定啊,自己搭的服务器。用chatbox用的
发表于 2025-2-10 22:16 来自手机 | 显示全部楼层
当然是用quora的
发表于 2025-2-16 17:08 | 显示全部楼层
kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。

ds是很吊,chatg p t也不差,但是稳定大于一切,所以就买200刀的pro了 ...

ds推理很不错。不管怎么说,技术突飞猛进,有一条鲶鱼总是好的。
发表于 2025-2-16 17:15 来自手机 | 显示全部楼层
影驰无影rtx4060ti 16g单槽那个怎么样
发表于 2025-2-16 20:01 | 显示全部楼层
chip_discovery 发表于 2025-2-6 18:54
只是共享显存,起码跑deepseek 是这样子的

推理多卡大部分模型都是只共享显存,算力不叠加,哪一层在哪张卡就使用这张卡的全部算力
发表于 2025-2-16 20:04 | 显示全部楼层
MageHan 发表于 2025-2-16 17:15
影驰无影rtx4060ti 16g单槽那个怎么样

4060ti内存带宽不够大,而且p2p也被干掉了,单卡拿来玩玩还可以,多卡不太行
发表于 2025-2-16 20:08 | 显示全部楼层
ssl0008 发表于 2025-2-6 17:47
m40 24g不行吗,我看m40居然涨价了

显存够用了,架构太老了,fp16效率差,int8不支持
发表于 2025-2-16 22:25 | 显示全部楼层
目前应该是火山云提供的API是最稳定的
发表于 2025-2-16 22:26 | 显示全部楼层
对了,那些说家用显卡能跑的,都不是真的R1或者V3,本质就是改良过增加了思维链的QWEN2.5和Llama,能力和真正的R1还是差了太多
发表于 2025-2-16 22:28 | 显示全部楼层
目前用讯飞和腾讯的都不错
发表于 2025-4-10 20:43 | 显示全部楼层
你在本地电脑跑14b么?
发表于 2025-4-10 20:43 | 显示全部楼层
kaixin_chh 发表于 2025-2-6 17:28
我最近也看到别人也是这么操作。

ds是很吊,chatg p t也不差,但是稳定大于一切,所以就买200刀的pro了 ...

200刀怎么收费?按token么?
发表于 2025-4-10 20:43 | 显示全部楼层
szjzll 发表于 2025-2-6 16:11
5090D现在还没法本地部署吗

5090D可以运行满血版本么?
发表于 2025-4-10 20:44 | 显示全部楼层
lz2906190 发表于 2025-2-6 11:52
还是用gemini2.0,deepseek开源了gemini的效率也提了不少。

gemini2.0聊天链接是什么?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-27 13:54 , Processed in 0.012391 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表