看了这个视频,意思目前大模型实际上并不是真开源?
【开源大模型,骗人的鬼话?-哔哩哔哩】 https://b23.tv/izdOwc8按照视频的意思,如果现在的主流几个大模型都算开源,那同理所有的本地程序理论上也可以说都是开源的。
毕竟编译(训练)后的机器码(权重文件)完全提供给用户了。
国外公司不少都部署进自己公司了,不是开源人家敢用? 你想掀起一场开源标准的大讨论?[偷笑] 训练数据本身有很多是不方便公开的,出于法律风险考虑确实不太好开源 开源只是把产品的一部分类似专利公开授权一样,可以让别人使用相同的技术,但是产品又不是只由一项专利完成的。别人照抄出来的怎么会完全相同。看看仿制药 机器学习和软件是不同的行业,开源的定义是先到者定义的。要想改变定义那就做一个排名靠前的大模型,然后把训练数据和代码都公开出来。 至少开源的模型,你可以定制化修改,甚至可以套壳改名成另一个模型 “开源”在这块不太适应,这块是个争论点。非要说怎么样算开源,我觉得应该把权重模型、训练过程,测试过程所以的代码、验证代码、训练数据集全都放出来,列清楚需要的硬件,列清楚许可证(是否允许商业等),用户自己准备硬件,完全可重头复现完整流程,能生成几乎一样的模型。这样算开源,但很显然不可能。
现在的“开源”就是开放权重文件和许可(是否能够用于商业、是否允许微调什么的)。我认为是一个商业吹捧打擦边球,就像手机“内存”一样。 权重内容好像也不算是机器码(类比二进制编译汇编的话),就是权重数值。不过这块本来也是黑盒子是不可解释的,开发模型的人都不知道某个数值准确的含义,模型的智能是巨量的权重数值涌现的,而不某个权重有特定的含义。
页:
[1]