powerduke 发表于 2025-6-13 12:02

在火山引擎上用api方式做了实验,关于llm本地部署不得不说

程序python的,主要功能是基于llm的自动的论文抓取、分析、实验、写报告。

在火山引擎花19.9整了2千万tokens的额度,整个跑下来的大体数据:
1. 数据:2篇英文论文全篇
2. llm流程:生成概要、多个agent角色生成多轮对话迭代、生成测试代码、生成测试数据、运行生成实验结果、生成一份报告
3. 为了节省token:仅启动一个流程(也可以多个流程并行,tokens耗用也会倍增)、每个流程不迭代(可以继续迭代改进,生成多份报告,tokens耗用也会倍增)、可以增加数据量(更多篇论文,tokens耗用也会倍增,尤其是token in侧)

4. llm模型:deepseek 0528

结果:
1. 上述实验条件下,10个小时内可以生成一份报告,tokens用量在150-200万左右
2. 大部分实验时间耗在等llm的输出上,按照实验结果,火山引擎的deepseek输出速度大体在60 tokens/s的样子吧(60x3600x24,几天下来api调用时间总体按照24小时计算)
4. 如果不节省token,把上面的多流程、迭代、加大数据量手段都上了,叠buff后一个报告几千万tokens很轻松,时间也要几十小时。

关于llm的线上与本地部署:
1. 本地部署没有火山的速度快,而大量时间是耗费在等待llm输出上,60tokens每秒在上面的实验中也还是慢(火山deepseek满血版据新闻介绍是在10张80G卡上跑的)

2. 普通用户在终端上的打字、语音对话、生成点图片视频的互动,与这种自动化api调用的消耗完全不是一个量级,几家搞llm平台的公司算的比普通用户明白的多,早晚那些稍微有些量的需求,对安全性要求低些的,总归会用这类平台服务,因为模型技术迭代需求、效率需求、成本需求等都在不断增加。

3. 大多的本地蒸馏版与线上满血版的对结果的影响有时也要考虑。

4. 本地运维费用和实际使用量的平衡不好掌握。

感想供大家参考:之前还玩本地32B,以后估计不会考虑了,轻量就用免费豆包得了,量大就花些钱买tokens直接用,省心省力省时间。


kkiller007 发表于 2025-6-13 13:11

本地碰到上下文内容大 就会大量占用显存拖慢速度

木子滴血 发表于 2025-6-13 13:19

[偷笑]什么?本地大语言模型不都是为了RP(角色扮演)吗

pdvc 发表于 2025-6-13 14:22

本地跑速度在3000-4000t/s,可以试试NIM

YsHaNg 发表于 2025-6-13 17:10

我选择白嫖一手gemini 现在市场还在早期 过两天就会再送免费高阶额度 上次的azure r1 perplexity pro 够用好久

powerduke 发表于 2025-6-13 17:18

pdvc 发表于 2025-6-13 14:22
本地跑速度在3000-4000t/s,可以试试NIM

看新闻介绍还是要买nv的专业产品,不知道价格几何

powerduke 发表于 2025-6-13 17:40

YsHaNg 发表于 2025-6-13 17:10
我选择白嫖一手gemini 现在市场还在早期 过两天就会再送免费高阶额度 上次的azure r1 perplexity pro 够用 ...

基于工作流方式,实际用哪个llm平台影响不太大,目前我的选择标准肯定是哪个便宜快就支持哪个。

neavo 发表于 2025-6-13 17:59

本帖最后由 neavo 于 2025-6-13 18:07 编辑

火山API的整体优化是吞吐向的而不是延迟向的,可以尝试把任务并行化,几十kt/s的吞吐速度很轻松,可以算是个人账户速度限额给的最宽松的平台了

pdvc 发表于 2025-6-13 20:35

powerduke 发表于 2025-6-13 17:18
看新闻介绍还是要买nv的专业产品,不知道价格几何

H200八卡机器价格在200-230左右。

powerduke 发表于 2025-6-13 22:46

pdvc 发表于 2025-6-13 20:35
H200八卡机器价格在200-230左右。

好吧,告辞
页: [1]
查看完整版本: 在火山引擎上用api方式做了实验,关于llm本地部署不得不说