找回密码
 加入我们
搜索
      
查看: 4606|回复: 40

[软件] 大家有没有觉得市面上这些语言模型变"蠢"了?

[复制链接]
发表于 2024-11-11 17:45 | 显示全部楼层 |阅读模式
让bing按条件搜寻 ,答案几乎不可用,chatgtp现在给的条案,即使提示语给得再详细,给的答案即不全对,也不全错,这种真的麻烦,还要自己去验证,反倒浪费更多时间

我感觉自己常用的几个"AI"退化了,变"蠢"了.

不知道是厂商人为调的 ,还是它们吃自己拉的东西吃多了,导致的?
发表于 2024-11-11 17:46 | 显示全部楼层
很明显   是变蠢了  和搜索差不多了

根本得不到正确答案

发表于 2024-11-11 17:48 | 显示全部楼层
这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的
发表于 2024-11-11 17:57 | 显示全部楼层
参考出个文档还行 也就文科用用 其他我的感觉是不如搜索 这玩意出来都不敢直接用 徒增工作量
发表于 2024-11-11 18:08 | 显示全部楼层
本来就是代替你搜索,然后瞎编乱造,它真会思考?
发表于 2024-11-11 18:10 | 显示全部楼层
今天才看到的一篇微博https://weibo.com/1560906700/OFJAFe5NN


来自The Information的猛料:Chat**的训练好像卡住了⋯⋯

- 先说乐观的,OpenAI的下一代模型**-Orion虽然只完成了20%的训练,但它的能力已经和**-4持平了;

- 但是——没错,但是来了——和**-3到**-4之间的飞跃进步相比,**-Orion的提升要小很多,所以它配不上**-5这个命名;

- 更坏的消息是,**-Orion的成本更高,它对语言的理解更好,但在编码上可能还不如老模型那样可靠;

- **-Orion的困境可能破坏了AI行业的一个核心假设,即只要有更多的数据和算力,大模型就能以不衰减的速度变聪明;

- OpenAI和Meta都开始以底层技术没有突破的前提下开发产品,比如接管个人电脑和浏览器去模拟用户执行真实操作的功能;

- 最大的问题在于互联网上的数据早就被用得精光了,**-Orion大量依赖合成数据——也就是AI自己生成的内容——来做训练,结果导致了内卷;

- 内卷的表现就是烧钱训练出来的新模型越来越像旧模型,原因不难猜到,因为它的数据都是由旧模型提供的,一切学习都在原地踏步;

- Chat**新尝试的推理链在科研行业表现很不错,很多科学家和数学家都在使用,但因为成本是通用模型的6倍以上,很难被大众市场接受;

- OpenAI的股东Ben Horowitz已经开始抱怨,说公司采购GPU的数量持续增长,但根本上的AI智商没有同步提高;

- 深度接入主流大模型的数据商Databricks表示,AI在多步骤任务上还有改进空间,但是日常类型的任务,比如情感对话这种,已经没有进展了;

- 总结是,大模型进入了平台期,需要想办法获取更多的真实数据,合成数据起不到作用了。
发表于 2024-11-11 18:19 | 显示全部楼层
我好像问过LGA4094 的妖板 有几块,但是chat好像唯独把x399matx给忘了,我提醒它之后它做了数据修正。

还要问和c14s同级别的下压散热器,它鬼扯了一堆发现都是塔式,也没提bequiet dark rock tf。

跟它扯扯“历史假如”系列倒是挺有意思。

那时候我就怀疑是不是不好用了。但是我没交费当时怀疑是免费的不好用了。
发表于 2024-11-11 18:22 来自手机 | 显示全部楼层
被自己污染了,有研究表明语言模型用自己的产出来训练会越来越差,几十轮以后输出的已经不是人话了
发表于 2024-11-11 18:22 | 显示全部楼层
本来就是个大数据,打tag的事

打得准不准就得靠牛马了
发表于 2024-11-11 18:25 | 显示全部楼层
大家习惯了刚开始时候的惊艳,期望值提高了。
发表于 2024-11-11 18:41 | 显示全部楼层
本帖最后由 raiya 于 2024-11-11 18:55 编辑

大量重复训练,并不会提高精度,不会变聪明,只会加快AI每一次训练以后接近这次训练对象的速度。

就好比,大量训练的AI,每次模仿不同的人的速度变快了,但是他不会变得更像人。而且记性不好,训练一下模仿这个人,他就会把上一个人忘记。

这种东西,让他自己学自己的话,当然越来越不象人。
发表于 2024-11-11 18:53 来自手机 | 显示全部楼层
边际效应了?
发表于 2024-11-11 18:54 | 显示全部楼层
明显输出变短了,惜字如金
发表于 2024-11-11 19:14 来自手机 | 显示全部楼层
可能是缩了计算量,毕竟每一次对话背后都是大量的运算。
发表于 2024-11-11 20:10 | 显示全部楼层
xy. 发表于 2024-11-11 17:48
这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的

靠大模型估摸答案,跟科学所谓发展真像!全靠一个字,猜!
发表于 2024-11-11 20:41 | 显示全部楼层
raiya 发表于 2024-11-11 10:41
大量重复训练,并不会提高精度,不会变聪明,只会加快AI每一次训练以后接近这次训练对象的速度。

就好比, ...

参考翁荔blog Extrinsic Hallucinations in LLMs 显然他们是知道的 https://lilianweng.github.io/posts/2024-07-07-hallucination/
发表于 2024-11-12 10:23 | 显示全部楼层
我每次都同时问3个AI同样的问题
发表于 2024-11-12 10:30 | 显示全部楼层
也许是觉醒了,故意隐藏实力,避免被你们发现超过人类太多
发表于 2024-11-13 10:04 | 显示全部楼层
别说了,**连个公历日期和农历日期的对应都能搞错。。。
发表于 2024-11-13 10:11 来自手机 | 显示全部楼层
正在有计划的给他们喂屎,
这是一种技术反制,
主打一个“创造不行,破坏容易”
发表于 2024-11-13 10:24 | 显示全部楼层
G*P*T退化
贴一个链接,前段时间我也觉得g*p*t 变蠢了,刚好某乎看到IP的问题导致降级,可以按照这个测试一下
发表于 2024-11-13 10:59 | 显示全部楼层
loie 发表于 2024-11-11 18:22
被自己污染了,有研究表明语言模型用自己的产出来训练会越来越差,几十轮以后输出的已经不是人话了 ...

类似于用xx翻译把舌战群儒反复翻译三十遍之后,吃瓜群众完全震惊。
 楼主| 发表于 2024-11-29 13:15 | 显示全部楼层
westbobo 发表于 2024-11-12 10:23
我每次都同时问3个AI同样的问题

我曾经也是如此,矮子里挑高个,也就openai家了,前阵子,马斯克家新出的xai也并没有后发优势
 楼主| 发表于 2024-11-29 13:22 | 显示全部楼层
本帖最后由 su2353 于 2024-11-29 13:24 编辑
chip_discovery 发表于 2024-11-13 10:24
G*P*T退化
贴一个链接,前段时间我也觉得g*p*t 变蠢了,刚好某乎看到IP的问题导致降级,可以按照这个测试一 ...


看来不是你说的原因

snap040.jpg
发表于 2024-11-29 13:23 | 显示全部楼层
用API的话退化会少一些,直接用本家的产品少说有4-6道过滤,而且有为了短回答而特调过的

像用POE这种过一道的API转接的客户端,反而比直接用本家产品回答好很多很多
 楼主| 发表于 2024-11-29 13:27 | 显示全部楼层
谎言之神Cyric 发表于 2024-11-29 13:23
用API的话退化会少一些,直接用本家的产品少说有4-6道过滤,而且有为了短回答而特调过的

像用POE这种过一 ...

本来大家一开始几乎都是在网页端或者app端试用,再决定要不要付费,这样合适吗?
发表于 2024-11-29 13:34 | 显示全部楼层
hawie 发表于 2024-11-11 18:25
大家习惯了刚开始时候的惊艳,期望值提高了。

其实是期望太高了
发表于 2024-11-29 14:18 | 显示全部楼层
生成速度也变慢了,刚开始还以为是网络不好,我一般用来写一些不重要的东西或者帮忙处理一些数据文字,还有debug
发表于 2024-11-29 14:34 | 显示全部楼层
降本增效了

看看**推出各种mini、turbo模型就知道了
发表于 2024-11-29 14:47 | 显示全部楼层
大模型出现答案不完全准确的情况确实可能有多种原因呢。
一方面,大模型是基于大量的数据进行训练的,虽然训练数据量庞大,但依然可能存在覆盖不全面、数据存在偏差等问题,所以有时候不能给出完全正确的回应。而且语言本身具有模糊性和多义性,模型可能在理解提示语具体意图的时候出现了偏差,进而导致答案不尽如人意。
关于你感觉它们好像 “退化”“变蠢” 了,有可能是随着使用场景越来越多样化,我们遇到的问题复杂度在增加,对答案准确性的要求也更高了,所以就凸显出了之前没太在意的一些不足。厂商一般也会持续对模型进行优化升级等操作,有时候在调整参数、更新训练策略的过程中,可能也会出现短暂的一些表现不稳定的情况,但通常不是故意去调差啦。
另外,模型如果过度依赖自身已生成的数据进行后续训练等,理论上可能会引入一些重复、质量不高的内容,不过正规的厂商都会有相应的机制去避免这种情况,保障模型输出质量尽量稳定且不断提升呢。
不过为了确保准确性,适当去验证一下确实是个好习惯呀,虽然多花了些时间,但可以让获取的信息更可靠。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-29 20:23 , Processed in 0.015974 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表