Sly 发表于 2025-8-4 07:34

看了这个视频,意思目前大模型实际上并不是真开源?

【开源大模型,骗人的鬼话?-哔哩哔哩】 https://b23.tv/izdOwc8

按照视频的意思,如果现在的主流几个大模型都算开源,那同理所有的本地程序理论上也可以说都是开源的。

毕竟编译(训练)后的机器码(权重文件)完全提供给用户了。

zqintel 发表于 2025-8-4 07:44

国外公司不少都部署进自己公司了,不是开源人家敢用?

VariedValiance 发表于 2025-8-4 08:50

你想掀起一场开源标准的大讨论?[偷笑]

litccc 发表于 2025-8-4 08:54

训练数据本身有很多是不方便公开的,出于法律风险考虑确实不太好开源

coffee@sugar℡ 发表于 2025-8-4 08:58

开源只是把产品的一部分类似专利公开授权一样,可以让别人使用相同的技术,但是产品又不是只由一项专利完成的。别人照抄出来的怎么会完全相同。看看仿制药

checker 发表于 2025-8-4 09:44

机器学习和软件是不同的行业,开源的定义是先到者定义的。要想改变定义那就做一个排名靠前的大模型,然后把训练数据和代码都公开出来。

foxsheep 发表于 2025-8-4 10:28

至少开源的模型,你可以定制化修改,甚至可以套壳改名成另一个模型

l0stc0mpass 发表于 2025-8-4 13:11

“开源”在这块不太适应,这块是个争论点。非要说怎么样算开源,我觉得应该把权重模型、训练过程,测试过程所以的代码、验证代码、训练数据集全都放出来,列清楚需要的硬件,列清楚许可证(是否允许商业等),用户自己准备硬件,完全可重头复现完整流程,能生成几乎一样的模型。这样算开源,但很显然不可能。

现在的“开源”就是开放权重文件和许可(是否能够用于商业、是否允许微调什么的)。我认为是一个商业吹捧打擦边球,就像手机“内存”一样。

l0stc0mpass 发表于 2025-8-4 13:14

权重内容好像也不算是机器码(类比二进制编译汇编的话),就是权重数值。不过这块本来也是黑盒子是不可解释的,开发模型的人都不知道某个数值准确的含义,模型的智能是巨量的权重数值涌现的,而不某个权重有特定的含义。
页: [1]
查看完整版本: 看了这个视频,意思目前大模型实际上并不是真开源?