大家有没有觉得市面上这些语言模型变"蠢"了?
让bing按条件搜寻 ,答案几乎不可用,chatgtp现在给的条案,即使提示语给得再详细,给的答案即不全对,也不全错,这种真的麻烦,还要自己去验证,反倒浪费更多时间我感觉自己常用的几个"AI"退化了,变"蠢"了.
不知道是厂商人为调的 ,还是它们吃自己拉的东西吃多了,导致的? 很明显 是变蠢了和搜索差不多了
根本得不到正确答案
这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的 参考出个文档还行 也就文科用用 其他我的感觉是不如搜索 这玩意出来都不敢直接用 徒增工作量 本来就是代替你搜索,然后瞎编乱造,它真会思考? 今天才看到的一篇微博https://weibo.com/1560906700/OFJAFe5NN
static/image/hrline/line3.png
来自The Information的猛料:Chat**的训练好像卡住了⋯⋯
- 先说乐观的,OpenAI的下一代模型**-Orion虽然只完成了20%的训练,但它的能力已经和**-4持平了;
- 但是——没错,但是来了——和**-3到**-4之间的飞跃进步相比,**-Orion的提升要小很多,所以它配不上**-5这个命名;
- 更坏的消息是,**-Orion的成本更高,它对语言的理解更好,但在编码上可能还不如老模型那样可靠;
- **-Orion的困境可能破坏了AI行业的一个核心假设,即只要有更多的数据和算力,大模型就能以不衰减的速度变聪明;
- OpenAI和Meta都开始以底层技术没有突破的前提下开发产品,比如接管个人电脑和浏览器去模拟用户执行真实操作的功能;
- 最大的问题在于互联网上的数据早就被用得精光了,**-Orion大量依赖合成数据——也就是AI自己生成的内容——来做训练,结果导致了内卷;
- 内卷的表现就是烧钱训练出来的新模型越来越像旧模型,原因不难猜到,因为它的数据都是由旧模型提供的,一切学习都在原地踏步;
- Chat**新尝试的推理链在科研行业表现很不错,很多科学家和数学家都在使用,但因为成本是通用模型的6倍以上,很难被大众市场接受;
- OpenAI的股东Ben Horowitz已经开始抱怨,说公司采购GPU的数量持续增长,但根本上的AI智商没有同步提高;
- 深度接入主流大模型的数据商Databricks表示,AI在多步骤任务上还有改进空间,但是日常类型的任务,比如情感对话这种,已经没有进展了;
- 总结是,大模型进入了平台期,需要想办法获取更多的真实数据,合成数据起不到作用了。 我好像问过LGA4094 的妖板 有几块,但是chat好像唯独把x399matx给忘了,我提醒它之后它做了数据修正。
还要问和c14s同级别的下压散热器,它鬼扯了一堆发现都是塔式,也没提bequiet dark rock tf。
跟它扯扯“历史假如”系列倒是挺有意思。
那时候我就怀疑是不是不好用了。但是我没交费当时怀疑是免费的不好用了。
被自己污染了,有研究表明语言模型用自己的产出来训练会越来越差,几十轮以后输出的已经不是人话了 本来就是个大数据,打tag的事
打得准不准就得靠牛马了 大家习惯了刚开始时候的惊艳,期望值提高了。 本帖最后由 raiya 于 2024-11-11 18:55 编辑
大量重复训练,并不会提高精度,不会变聪明,只会加快AI每一次训练以后接近这次训练对象的速度。
就好比,大量训练的AI,每次模仿不同的人的速度变快了,但是他不会变得更像人。而且记性不好,训练一下模仿这个人,他就会把上一个人忘记。
这种东西,让他自己学自己的话,当然越来越不象人。 边际效应了? 明显输出变短了,惜字如金[偷笑]
可能是缩了计算量,毕竟每一次对话背后都是大量的运算。 xy. 发表于 2024-11-11 17:48
这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的
靠大模型估摸答案,跟科学所谓发展真像!全靠一个字,猜! raiya 发表于 2024-11-11 10:41
大量重复训练,并不会提高精度,不会变聪明,只会加快AI每一次训练以后接近这次训练对象的速度。
就好比, ...
参考翁荔blog Extrinsic Hallucinations in LLMs 显然他们是知道的 https://lilianweng.github.io/posts/2024-07-07-hallucination/ 我每次都同时问3个AI同样的问题 也许是觉醒了,故意隐藏实力,避免被你们发现超过人类太多 别说了,**连个公历日期和农历日期的对应都能搞错。。。 正在有计划的给他们喂屎,
这是一种技术反制,
主打一个“创造不行,破坏容易” G*P*T退化
贴一个链接,前段时间我也觉得g*p*t 变蠢了,刚好某乎看到IP的问题导致降级,可以按照这个测试一下 loie 发表于 2024-11-11 18:22
被自己污染了,有研究表明语言模型用自己的产出来训练会越来越差,几十轮以后输出的已经不是人话了 ...
类似于用xx翻译把舌战群儒反复翻译三十遍之后,吃瓜群众完全震惊。 westbobo 发表于 2024-11-12 10:23
我每次都同时问3个AI同样的问题
我曾经也是如此,矮子里挑高个,也就openai家了,前阵子,马斯克家新出的xai也并没有后发优势 本帖最后由 su2353 于 2024-11-29 13:24 编辑
chip_discovery 发表于 2024-11-13 10:24
G*P*T退化
贴一个链接,前段时间我也觉得g*p*t 变蠢了,刚好某乎看到IP的问题导致降级,可以按照这个测试一 ...
看来不是你说的原因
用API的话退化会少一些,直接用本家的产品少说有4-6道过滤,而且有为了短回答而特调过的
像用POE这种过一道的API转接的客户端,反而比直接用本家产品回答好很多很多 谎言之神Cyric 发表于 2024-11-29 13:23
用API的话退化会少一些,直接用本家的产品少说有4-6道过滤,而且有为了短回答而特调过的
像用POE这种过一 ...
本来大家一开始几乎都是在网页端或者app端试用,再决定要不要付费,这样合适吗? hawie 发表于 2024-11-11 18:25
大家习惯了刚开始时候的惊艳,期望值提高了。
其实是期望太高了 生成速度也变慢了,刚开始还以为是网络不好,我一般用来写一些不重要的东西或者帮忙处理一些数据文字,还有debug 降本增效了
看看**推出各种mini、turbo模型就知道了 大模型出现答案不完全准确的情况确实可能有多种原因呢。
一方面,大模型是基于大量的数据进行训练的,虽然训练数据量庞大,但依然可能存在覆盖不全面、数据存在偏差等问题,所以有时候不能给出完全正确的回应。而且语言本身具有模糊性和多义性,模型可能在理解提示语具体意图的时候出现了偏差,进而导致答案不尽如人意。
关于你感觉它们好像 “退化”“变蠢” 了,有可能是随着使用场景越来越多样化,我们遇到的问题复杂度在增加,对答案准确性的要求也更高了,所以就凸显出了之前没太在意的一些不足。厂商一般也会持续对模型进行优化升级等操作,有时候在调整参数、更新训练策略的过程中,可能也会出现短暂的一些表现不稳定的情况,但通常不是故意去调差啦。
另外,模型如果过度依赖自身已生成的数据进行后续训练等,理论上可能会引入一些重复、质量不高的内容,不过正规的厂商都会有相应的机制去避免这种情况,保障模型输出质量尽量稳定且不断提升呢。
不过为了确保准确性,适当去验证一下确实是个好习惯呀,虽然多花了些时间,但可以让获取的信息更可靠。
页:
[1]
2