Chiphell - 分享与交流用户体验

标题: 大家有没有觉得市面上这些语言模型变"蠢"了? [打印本页]

作者: su2353    时间: 2024-11-11 17:45
标题: 大家有没有觉得市面上这些语言模型变"蠢"了?
让bing按条件搜寻 ,答案几乎不可用,chatgtp现在给的条案,即使提示语给得再详细,给的答案即不全对,也不全错,这种真的麻烦,还要自己去验证,反倒浪费更多时间

我感觉自己常用的几个"AI"退化了,变"蠢"了.

不知道是厂商人为调的 ,还是它们吃自己拉的东西吃多了,导致的?
作者: 后天    时间: 2024-11-11 17:46
很明显   是变蠢了  和搜索差不多了

根本得不到正确答案


作者: xy.    时间: 2024-11-11 17:48
这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的
作者: fhhghost    时间: 2024-11-11 17:57
参考出个文档还行 也就文科用用 其他我的感觉是不如搜索 这玩意出来都不敢直接用 徒增工作量
作者: wjqok    时间: 2024-11-11 18:08
本来就是代替你搜索,然后瞎编乱造,它真会思考?
作者: Alienxzy    时间: 2024-11-11 18:10
今天才看到的一篇微博https://weibo.com/1560906700/OFJAFe5NN


来自The Information的猛料:Chat**的训练好像卡住了⋯⋯

- 先说乐观的,OpenAI的下一代模型**-Orion虽然只完成了20%的训练,但它的能力已经和**-4持平了;

- 但是——没错,但是来了——和**-3到**-4之间的飞跃进步相比,**-Orion的提升要小很多,所以它配不上**-5这个命名;

- 更坏的消息是,**-Orion的成本更高,它对语言的理解更好,但在编码上可能还不如老模型那样可靠;

- **-Orion的困境可能破坏了AI行业的一个核心假设,即只要有更多的数据和算力,大模型就能以不衰减的速度变聪明;

- OpenAI和Meta都开始以底层技术没有突破的前提下开发产品,比如接管个人电脑和浏览器去模拟用户执行真实操作的功能;

- 最大的问题在于互联网上的数据早就被用得精光了,**-Orion大量依赖合成数据——也就是AI自己生成的内容——来做训练,结果导致了内卷;

- 内卷的表现就是烧钱训练出来的新模型越来越像旧模型,原因不难猜到,因为它的数据都是由旧模型提供的,一切学习都在原地踏步;

- Chat**新尝试的推理链在科研行业表现很不错,很多科学家和数学家都在使用,但因为成本是通用模型的6倍以上,很难被大众市场接受;

- OpenAI的股东Ben Horowitz已经开始抱怨,说公司采购GPU的数量持续增长,但根本上的AI智商没有同步提高;

- 深度接入主流大模型的数据商Databricks表示,AI在多步骤任务上还有改进空间,但是日常类型的任务,比如情感对话这种,已经没有进展了;

- 总结是,大模型进入了平台期,需要想办法获取更多的真实数据,合成数据起不到作用了。
作者: finished    时间: 2024-11-11 18:19
我好像问过LGA4094 的妖板 有几块,但是chat好像唯独把x399matx给忘了,我提醒它之后它做了数据修正。

还要问和c14s同级别的下压散热器,它鬼扯了一堆发现都是塔式,也没提bequiet dark rock tf。

跟它扯扯“历史假如”系列倒是挺有意思。

那时候我就怀疑是不是不好用了。但是我没交费当时怀疑是免费的不好用了。

作者: loie    时间: 2024-11-11 18:22
被自己污染了,有研究表明语言模型用自己的产出来训练会越来越差,几十轮以后输出的已经不是人话了
作者: ccchoco    时间: 2024-11-11 18:22
本来就是个大数据,打tag的事

打得准不准就得靠牛马了
作者: hawie    时间: 2024-11-11 18:25
大家习惯了刚开始时候的惊艳,期望值提高了。
作者: raiya    时间: 2024-11-11 18:41
本帖最后由 raiya 于 2024-11-11 18:55 编辑

大量重复训练,并不会提高精度,不会变聪明,只会加快AI每一次训练以后接近这次训练对象的速度。

就好比,大量训练的AI,每次模仿不同的人的速度变快了,但是他不会变得更像人。而且记性不好,训练一下模仿这个人,他就会把上一个人忘记。

这种东西,让他自己学自己的话,当然越来越不象人。
作者: karaki    时间: 2024-11-11 18:53
边际效应了?
作者: xsdianeht    时间: 2024-11-11 18:54
明显输出变短了,惜字如金

作者: darkness66201    时间: 2024-11-11 19:14
可能是缩了计算量,毕竟每一次对话背后都是大量的运算。
作者: fycmouse    时间: 2024-11-11 20:10
xy. 发表于 2024-11-11 17:48
这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的

靠大模型估摸答案,跟科学所谓发展真像!全靠一个字,猜!
作者: YsHaNg    时间: 2024-11-11 20:41
raiya 发表于 2024-11-11 10:41
大量重复训练,并不会提高精度,不会变聪明,只会加快AI每一次训练以后接近这次训练对象的速度。

就好比, ...

参考翁荔blog Extrinsic Hallucinations in LLMs 显然他们是知道的 https://lilianweng.github.io/posts/2024-07-07-hallucination/
作者: westbobo    时间: 2024-11-12 10:23
我每次都同时问3个AI同样的问题
作者: ShinichiYao    时间: 2024-11-12 10:30
也许是觉醒了,故意隐藏实力,避免被你们发现超过人类太多
作者: 冠希羊羊羊    时间: 2024-11-13 10:04
别说了,**连个公历日期和农历日期的对应都能搞错。。。
作者: RyanLR    时间: 2024-11-13 10:11
正在有计划的给他们喂屎,
这是一种技术反制,
主打一个“创造不行,破坏容易”
作者: chip_discovery    时间: 2024-11-13 10:24
G*P*T退化
贴一个链接,前段时间我也觉得g*p*t 变蠢了,刚好某乎看到IP的问题导致降级,可以按照这个测试一下
作者: 声色茶马    时间: 2024-11-13 10:59
loie 发表于 2024-11-11 18:22
被自己污染了,有研究表明语言模型用自己的产出来训练会越来越差,几十轮以后输出的已经不是人话了 ...

类似于用xx翻译把舌战群儒反复翻译三十遍之后,吃瓜群众完全震惊。
作者: su2353    时间: 2024-11-29 13:15
westbobo 发表于 2024-11-12 10:23
我每次都同时问3个AI同样的问题

我曾经也是如此,矮子里挑高个,也就openai家了,前阵子,马斯克家新出的xai也并没有后发优势
作者: su2353    时间: 2024-11-29 13:22
本帖最后由 su2353 于 2024-11-29 13:24 编辑
chip_discovery 发表于 2024-11-13 10:24
G*P*T退化
贴一个链接,前段时间我也觉得g*p*t 变蠢了,刚好某乎看到IP的问题导致降级,可以按照这个测试一 ...


看来不是你说的原因

(, 下载次数: 41)
作者: 谎言之神Cyric    时间: 2024-11-29 13:23
用API的话退化会少一些,直接用本家的产品少说有4-6道过滤,而且有为了短回答而特调过的

像用POE这种过一道的API转接的客户端,反而比直接用本家产品回答好很多很多
作者: su2353    时间: 2024-11-29 13:27
谎言之神Cyric 发表于 2024-11-29 13:23
用API的话退化会少一些,直接用本家的产品少说有4-6道过滤,而且有为了短回答而特调过的

像用POE这种过一 ...

本来大家一开始几乎都是在网页端或者app端试用,再决定要不要付费,这样合适吗?
作者: 雨季不再来    时间: 2024-11-29 13:34
hawie 发表于 2024-11-11 18:25
大家习惯了刚开始时候的惊艳,期望值提高了。

其实是期望太高了
作者: 05q4    时间: 2024-11-29 14:18
生成速度也变慢了,刚开始还以为是网络不好,我一般用来写一些不重要的东西或者帮忙处理一些数据文字,还有debug
作者: blaumeer    时间: 2024-11-29 14:34
降本增效了

看看**推出各种mini、turbo模型就知道了
作者: starfriend    时间: 2024-11-29 14:47
大模型出现答案不完全准确的情况确实可能有多种原因呢。
一方面,大模型是基于大量的数据进行训练的,虽然训练数据量庞大,但依然可能存在覆盖不全面、数据存在偏差等问题,所以有时候不能给出完全正确的回应。而且语言本身具有模糊性和多义性,模型可能在理解提示语具体意图的时候出现了偏差,进而导致答案不尽如人意。
关于你感觉它们好像 “退化”“变蠢” 了,有可能是随着使用场景越来越多样化,我们遇到的问题复杂度在增加,对答案准确性的要求也更高了,所以就凸显出了之前没太在意的一些不足。厂商一般也会持续对模型进行优化升级等操作,有时候在调整参数、更新训练策略的过程中,可能也会出现短暂的一些表现不稳定的情况,但通常不是故意去调差啦。
另外,模型如果过度依赖自身已生成的数据进行后续训练等,理论上可能会引入一些重复、质量不高的内容,不过正规的厂商都会有相应的机制去避免这种情况,保障模型输出质量尽量稳定且不断提升呢。
不过为了确保准确性,适当去验证一下确实是个好习惯呀,虽然多花了些时间,但可以让获取的信息更可靠。
作者: ouqihang    时间: 2024-11-29 15:57
当初推出的时候,已经可以预料到,中文圈的内容就是屎,在屎上雕花,几大平台的内容都封闭起来。21年的时间节点网络上已经有不少生成的垃圾内容了,加上中文圈各家封闭,没有语料训练怎么会好。现在是各家都用自家的内容自己训练了。
而且**的问题是不会的问题强行乱说,涉及某些明确答案的问题,稍微懂的就会知道错,直接用在搜索引擎是个隐患。
消耗的资源多,后面缩减了资源回答的质量就下降。
作者: 装陈醋的酱油瓶    时间: 2024-11-29 16:00
被某些美吹给毒奶奶死了。

sarcasm aside,
主要是瓶颈了, 电网、训练材料 及 大模型本身scaling的问题。最后一个问题最大。
或者说,大模型表现出来的逻辑本身不是逻辑,而是概率。
或许Transformer 本身可能也就这样了,可能以后会有其它的魔法。
毕竟这是过去十几年最靠谱的玩意儿了,比区块链元宇宙靠谱多了


作者: af_x_if    时间: 2024-11-29 16:07
瓶颈了也可以缩模型呀
通义千问现在的32b比自家上一代72b强,和别家72b有来有回,其实很有意义的。
作者: JasonGreen    时间: 2024-11-29 16:45
刚才给了Chat**一堆坐标点,让他把x的数值都乘2。结果就是不对的,搞的还是自己写了程序来做。
作者: williamqh    时间: 2024-11-30 10:16
装陈醋的酱油瓶 发表于 2024-11-29 16:00
被某些美吹给毒奶奶死了。

sarcasm aside,

哪瓶颈了,开源模型一个接一个,一个比一个强。写代码完全有能力替代很多程序员了。
作者: netjunegg    时间: 2024-11-30 10:59
af_x_if 发表于 2024-11-29 16:07
瓶颈了也可以缩模型呀
通义千问现在的32b比自家上一代72b强,和别家72b有来有回,其实很有意义的。 ...

32b用什么机器跑?
作者: netjunegg    时间: 2024-11-30 11:00
豆包还可以, 每次回答后会给出一些有用的搜索链接
作者: ioko    时间: 2024-11-30 12:08
无论什么东西,只要是通用的,就无法开疆拓土。我的个人观点,目前这种形态的各家ai模型,全部没有商业化的可能,一丁点都没有可能。只能期待细分行业另外突破,再套用目前的ai逻辑特征找到立足点才能活下来。总结,先在细分行业从一开始就在代码中布局钳入商业基因。说白点就是有商业化前景的细分市场切入。结构就是:先造毛细血管再到心脏,而不是现在就造个心脏。
作者: af_x_if    时间: 2024-11-30 12:28
netjunegg 发表于 2024-11-30 10:59
32b用什么机器跑?

22gb显存需求。
作者: su2353    时间: 2024-12-1 13:12
最近发现,非通用的**反倒更好用

在其领域内的问题都基本都正确回答,范围外,就直接回答范围外

而通用型,即使不知道答案,它都会硬生生给你生出一个像模像样的答案,这种最麻烦,也最危险
作者: yangzi123aaa20    时间: 2024-12-1 14:17
**4开始左脚踩右脚自己生成垃圾喂自己,那可不就越来越蠢




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5