找回密码
 加入我们
搜索
      
查看: 7040|回复: 38

[网络] DeepSeek和chat**什么关系??

[复制链接]
发表于 2025-2-5 20:53 | 显示全部楼层
jihuan 发表于 2025-2-5 14:42
dp只是训练成本低,开发成本绝对要爆,代码都是用汇编写的,开发工作量拉满。 ...

汇编应该指的是他们用汇编和底层编程的方式优化他们自己的萤火虫算力平台,现在ds公开的模型是用ollma运行的模型包。现在公开版的ds之所以省算力是因为使用了moe的结构,每个token只激活一个37B参数的专家子模型。
现在能达到他宣称性能的是671B参数的全量模型,需要8张80G显存的A100来部署
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-6-23 13:50 , Processed in 0.008178 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表