大家有没有觉得市面上这些语言模型变"蠢"了?

su2353 · 发表于 2024-11-11 17:45

让bing按条件搜寻 ,答案几乎不可用,chatgtp现在给的条案,即使提示语给得再详细,给的答案即不全对,也不全错,这种真的麻烦,还要自己去验证,反倒浪费更多时间

我感觉自己常用的几个"AI"退化了,变"蠢"了.

不知道是厂商人为调的 ,还是它们吃自己拉的东西吃多了,导致的?

后天 · 发表于 2024-11-11 17:46

很明显是变蠢了和搜索差不多了

根本得不到正确答案

xy. · 发表于 2024-11-11 17:48

这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的

fhhghost · 发表于 2024-11-11 17:57

参考出个文档还行也就文科用用其他我的感觉是不如搜索这玩意出来都不敢直接用徒增工作量

wjqok · 发表于 2024-11-11 18:08

本来就是代替你搜索，然后瞎编乱造，它真会思考？

Alienxzy · 发表于 2024-11-11 18:10

今天才看到的一篇微博https://weibo.com/1560906700/OFJAFe5NN

来自The Information的猛料：Chat**的训练好像卡住了⋯⋯

- 先说乐观的，OpenAI的下一代模型**-Orion虽然只完成了20%的训练，但它的能力已经和**-4持平了；

- 但是——没错，但是来了——和**-3到**-4之间的飞跃进步相比，**-Orion的提升要小很多，所以它配不上**-5这个命名；

- 更坏的消息是，**-Orion的成本更高，它对语言的理解更好，但在编码上可能还不如老模型那样可靠；

- **-Orion的困境可能破坏了AI行业的一个核心假设，即只要有更多的数据和算力，大模型就能以不衰减的速度变聪明；

- OpenAI和Meta都开始以底层技术没有突破的前提下开发产品，比如接管个人电脑和浏览器去模拟用户执行真实操作的功能；

- 最大的问题在于互联网上的数据早就被用得精光了，**-Orion大量依赖合成数据——也就是AI自己生成的内容——来做训练，结果导致了内卷；

- 内卷的表现就是烧钱训练出来的新模型越来越像旧模型，原因不难猜到，因为它的数据都是由旧模型提供的，一切学习都在原地踏步；

- Chat**新尝试的推理链在科研行业表现很不错，很多科学家和数学家都在使用，但因为成本是通用模型的6倍以上，很难被大众市场接受；

- OpenAI的股东Ben Horowitz已经开始抱怨，说公司采购GPU的数量持续增长，但根本上的AI智商没有同步提高；

- 深度接入主流大模型的数据商Databricks表示，AI在多步骤任务上还有改进空间，但是日常类型的任务，比如情感对话这种，已经没有进展了；

- 总结是，大模型进入了平台期，需要想办法获取更多的真实数据，合成数据起不到作用了。

finished · 发表于 2024-11-11 18:19

我好像问过LGA4094 的妖板有几块，但是chat好像唯独把x399matx给忘了，我提醒它之后它做了数据修正。

还要问和c14s同级别的下压散热器，它鬼扯了一堆发现都是塔式，也没提bequiet dark rock tf。

跟它扯扯“历史假如”系列倒是挺有意思。

那时候我就怀疑是不是不好用了。但是我没交费当时怀疑是免费的不好用了。

loie · 发表于 2024-11-11 18:22

被自己污染了，有研究表明语言模型用自己的产出来训练会越来越差，几十轮以后输出的已经不是人话了

ccchoco · 发表于 2024-11-11 18:22

本来就是个大数据，打tag的事

打得准不准就得靠牛马了

hawie · 发表于 2024-11-11 18:25

大家习惯了刚开始时候的惊艳，期望值提高了。

raiya · 发表于 2024-11-11 18:41

本帖最后由 raiya 于 2024-11-11 18:55 编辑

大量重复训练，并不会提高精度，不会变聪明，只会加快AI每一次训练以后接近这次训练对象的速度。

就好比，大量训练的AI，每次模仿不同的人的速度变快了，但是他不会变得更像人。而且记性不好，训练一下模仿这个人，他就会把上一个人忘记。

这种东西，让他自己学自己的话，当然越来越不象人。

karaki · 发表于 2024-11-11 18:53

边际效应了？

xsdianeht · 发表于 2024-11-11 18:54

明显输出变短了，惜字如金

darkness66201 · 发表于 2024-11-11 19:14

可能是缩了计算量，毕竟每一次对话背后都是大量的运算。

fycmouse · 发表于 2024-11-11 20:10

xy. 发表于 2024-11-11 17:48
这些玩意到现在一直也没探索出合适的商业模式
质量下降是必然的

靠大模型估摸答案，跟科学所谓发展真像！全靠一个字，猜！

YsHaNg · 发表于 2024-11-11 20:41

raiya 发表于 2024-11-11 10:41
大量重复训练，并不会提高精度，不会变聪明，只会加快AI每一次训练以后接近这次训练对象的速度。

就好比， ...

参考翁荔blog Extrinsic Hallucinations in LLMs 显然他们是知道的 https://lilianweng.github.io/posts/2024-07-07-hallucination/

westbobo · 发表于 2024-11-12 10:23

我每次都同时问3个AI同样的问题

ShinichiYao · 发表于 2024-11-12 10:30

也许是觉醒了，故意隐藏实力，避免被你们发现超过人类太多

冠希羊羊羊 · 发表于 2024-11-13 10:04

别说了，**连个公历日期和农历日期的对应都能搞错。。。

RyanLR · 发表于 2024-11-13 10:11

正在有计划的给他们喂屎，
这是一种技术反制，
主打一个“创造不行，破坏容易”

chip_discovery · 发表于 2024-11-13 10:24

G*P*T退化
贴一个链接，前段时间我也觉得g*p*t 变蠢了，刚好某乎看到IP的问题导致降级，可以按照这个测试一下

声色茶马 · 发表于 2024-11-13 10:59

loie 发表于 2024-11-11 18:22
被自己污染了，有研究表明语言模型用自己的产出来训练会越来越差，几十轮以后输出的已经不是人话了 ...

类似于用xx翻译把舌战群儒反复翻译三十遍之后，吃瓜群众完全震惊。

su2353 · 发表于 2024-11-29 13:15

westbobo 发表于 2024-11-12 10:23
我每次都同时问3个AI同样的问题

我曾经也是如此，矮子里挑高个，也就openai家了，前阵子，马斯克家新出的xai也并没有后发优势

su2353 · 发表于 2024-11-29 13:22

本帖最后由 su2353 于 2024-11-29 13:24 编辑

chip_discovery 发表于 2024-11-13 10:24
G*P*T退化
贴一个链接，前段时间我也觉得g*p*t 变蠢了，刚好某乎看到IP的问题导致降级，可以按照这个测试一 ...

看来不是你说的原因

谎言之神Cyric · 发表于 2024-11-29 13:23

用API的话退化会少一些，直接用本家的产品少说有4-6道过滤，而且有为了短回答而特调过的

像用POE这种过一道的API转接的客户端，反而比直接用本家产品回答好很多很多

su2353 · 发表于 2024-11-29 13:27

谎言之神Cyric 发表于 2024-11-29 13:23
用API的话退化会少一些，直接用本家的产品少说有4-6道过滤，而且有为了短回答而特调过的

像用POE这种过一 ...

本来大家一开始几乎都是在网页端或者app端试用，再决定要不要付费，这样合适吗？

雨季不再来 · 发表于 2024-11-29 13:34

hawie 发表于 2024-11-11 18:25
大家习惯了刚开始时候的惊艳，期望值提高了。

其实是期望太高了

05q4 · 发表于 2024-11-29 14:18

生成速度也变慢了，刚开始还以为是网络不好，我一般用来写一些不重要的东西或者帮忙处理一些数据文字，还有debug

blaumeer · 发表于 2024-11-29 14:34

降本增效了

看看**推出各种mini、turbo模型就知道了

starfriend · 发表于 2024-11-29 14:47

大模型出现答案不完全准确的情况确实可能有多种原因呢。
一方面，大模型是基于大量的数据进行训练的，虽然训练数据量庞大，但依然可能存在覆盖不全面、数据存在偏差等问题，所以有时候不能给出完全正确的回应。而且语言本身具有模糊性和多义性，模型可能在理解提示语具体意图的时候出现了偏差，进而导致答案不尽如人意。
关于你感觉它们好像 “退化”“变蠢” 了，有可能是随着使用场景越来越多样化，我们遇到的问题复杂度在增加，对答案准确性的要求也更高了，所以就凸显出了之前没太在意的一些不足。厂商一般也会持续对模型进行优化升级等操作，有时候在调整参数、更新训练策略的过程中，可能也会出现短暂的一些表现不稳定的情况，但通常不是故意去调差啦。
另外，模型如果过度依赖自身已生成的数据进行后续训练等，理论上可能会引入一些重复、质量不高的内容，不过正规的厂商都会有相应的机制去避免这种情况，保障模型输出质量尽量稳定且不断提升呢。
不过为了确保准确性，适当去验证一下确实是个好习惯呀，虽然多花了些时间，但可以让获取的信息更可靠。

账号		自动登录	找回密码
密码			加入我们

[软件] 大家有没有觉得市面上这些语言模型变"蠢"了?

浏览过的版块