看了这个视频，意思目前大模型实际上并不是真开源？

Sly · 发表于 2025-8-4 07:34

【开源大模型，骗人的鬼话？-哔哩哔哩】 https://b23.tv/izdOwc8

按照视频的意思，如果现在的主流几个大模型都算开源，那同理所有的本地程序理论上也可以说都是开源的。

毕竟编译（训练）后的机器码（权重文件）完全提供给用户了。

zqintel · 发表于 2025-8-4 07:44

国外公司不少都部署进自己公司了，不是开源人家敢用？

VariedValiance · 发表于 2025-8-4 08:50

你想掀起一场开源标准的大讨论？

litccc · 发表于 2025-8-4 08:54

训练数据本身有很多是不方便公开的，出于法律风险考虑确实不太好开源

coffee@sugar℡ · 发表于 2025-8-4 08:58

开源只是把产品的一部分类似专利公开授权一样，可以让别人使用相同的技术，但是产品又不是只由一项专利完成的。别人照抄出来的怎么会完全相同。看看仿制药

checker · 发表于 2025-8-4 09:44

机器学习和软件是不同的行业，开源的定义是先到者定义的。要想改变定义那就做一个排名靠前的大模型，然后把训练数据和代码都公开出来。

foxsheep · 发表于 2025-8-4 10:28

至少开源的模型，你可以定制化修改，甚至可以套壳改名成另一个模型

l0stc0mpass · 发表于 2025-8-4 13:11

“开源”在这块不太适应，这块是个争论点。非要说怎么样算开源，我觉得应该把权重模型、训练过程，测试过程所以的代码、验证代码、训练数据集全都放出来，列清楚需要的硬件，列清楚许可证（是否允许商业等），用户自己准备硬件，完全可重头复现完整流程，能生成几乎一样的模型。这样算开源，但很显然不可能。

现在的“开源”就是开放权重文件和许可（是否能够用于商业、是否允许微调什么的）。我认为是一个商业吹捧打擦边球，就像手机“内存”一样。

l0stc0mpass · 发表于 2025-8-4 13:14

权重内容好像也不算是机器码（类比二进制编译汇编的话），就是权重数值。不过这块本来也是黑盒子是不可解释的，开发模型的人都不知道某个数值准确的含义，模型的智能是巨量的权重数值涌现的，而不某个权重有特定的含义。

账号		自动登录	找回密码
密码			加入我们

[软件] 看了这个视频，意思目前大模型实际上并不是真开源？