在火山引擎上用api方式做了实验，关于llm本地部署不得不说

powerduke 发表于 2025-6-13 12:02

程序python的，主要功能是基于llm的自动的论文抓取、分析、实验、写报告。

在火山引擎花19.9整了2千万tokens的额度，整个跑下来的大体数据：
1. 数据：2篇英文论文全篇
2. llm流程：生成概要、多个agent角色生成多轮对话迭代、生成测试代码、生成测试数据、运行生成实验结果、生成一份报告
3. 为了节省token：仅启动一个流程（也可以多个流程并行，tokens耗用也会倍增）、每个流程不迭代（可以继续迭代改进，生成多份报告，tokens耗用也会倍增）、可以增加数据量（更多篇论文，tokens耗用也会倍增，尤其是token in侧）

4. llm模型：deepseek 0528

结果：
1. 上述实验条件下，10个小时内可以生成一份报告，tokens用量在150-200万左右
2. 大部分实验时间耗在等llm的输出上，按照实验结果，火山引擎的deepseek输出速度大体在60 tokens/s的样子吧（60x3600x24，几天下来api调用时间总体按照24小时计算）
4. 如果不节省token，把上面的多流程、迭代、加大数据量手段都上了，叠buff后一个报告几千万tokens很轻松，时间也要几十小时。

关于llm的线上与本地部署：
1. 本地部署没有火山的速度快，而大量时间是耗费在等待llm输出上，60tokens每秒在上面的实验中也还是慢（火山deepseek满血版据新闻介绍是在10张80G卡上跑的）

2. 普通用户在终端上的打字、语音对话、生成点图片视频的互动，与这种自动化api调用的消耗完全不是一个量级，几家搞llm平台的公司算的比普通用户明白的多，早晚那些稍微有些量的需求，对安全性要求低些的，总归会用这类平台服务，因为模型技术迭代需求、效率需求、成本需求等都在不断增加。

3. 大多的本地蒸馏版与线上满血版的对结果的影响有时也要考虑。

4. 本地运维费用和实际使用量的平衡不好掌握。

感想供大家参考：之前还玩本地32B，以后估计不会考虑了，轻量就用免费豆包得了，量大就花些钱买tokens直接用，省心省力省时间。

kkiller007 发表于 2025-6-13 13:11

本地碰到上下文内容大就会大量占用显存拖慢速度

木子滴血 发表于 2025-6-13 13:19

[偷笑]什么？本地大语言模型不都是为了RP（角色扮演）吗

pdvc 发表于 2025-6-13 14:22

本地跑速度在3000-4000t/s，可以试试NIM

YsHaNg 发表于 2025-6-13 17:10

我选择白嫖一手gemini 现在市场还在早期过两天就会再送免费高阶额度上次的azure r1 perplexity pro 够用好久

powerduke 发表于 2025-6-13 17:18

pdvc 发表于 2025-6-13 14:22
本地跑速度在3000-4000t/s，可以试试NIM

看新闻介绍还是要买nv的专业产品，不知道价格几何

powerduke 发表于 2025-6-13 17:40

YsHaNg 发表于 2025-6-13 17:10
我选择白嫖一手gemini 现在市场还在早期过两天就会再送免费高阶额度上次的azure r1 perplexity pro 够用 ...

基于工作流方式，实际用哪个llm平台影响不太大，目前我的选择标准肯定是哪个便宜快就支持哪个。

neavo 发表于 2025-6-13 17:59

本帖最后由 neavo 于 2025-6-13 18:07 编辑

火山API的整体优化是吞吐向的而不是延迟向的，可以尝试把任务并行化，几十kt/s的吞吐速度很轻松，可以算是个人账户速度限额给的最宽松的平台了

pdvc 发表于 2025-6-13 20:35

powerduke 发表于 2025-6-13 17:18
看新闻介绍还是要买nv的专业产品，不知道价格几何

H200八卡机器价格在200-230左右。

powerduke 发表于 2025-6-13 22:46

pdvc 发表于 2025-6-13 20:35
H200八卡机器价格在200-230左右。

好吧，告辞

页: [1]

Chiphell - 分享与交流用户体验's Archiver

在火山引擎上用api方式做了实验，关于llm本地部署不得不说