找回密码
 加入我们
搜索
      
楼主: kuram

[显卡] 恭喜大家好消息 好消息

[复制链接]
发表于 2025-1-27 10:08 | 显示全部楼层
开源的 反而本地部署的多了
 楼主| 发表于 2025-1-27 10:10 | 显示全部楼层
m1screw 发表于 2025-1-27 10:02
论文里面说是用的"2048 NVIDIA H800 GPUs",但实际上他们手里还有50K左右的H100,也就是说实际的训练集群规 ...

其实可以这样理解 他们用H100 进行了一个运算

然后通过H800验证了这个模型

那未来这个模型精度是正确的  那也就是说未来可以用H800 等非常低的卡来做同样的事情

也就是说同样的事情价格降低了

-有的人会问 那你也是用H100跑出来 然后用H800验证的

-问题在于 既然模型是正确,精度是足够的 那我迭代 和升级就不再需要你更多的卡了

-或者换一种说法 以前用1万张H100 现在只要500张H100 多跑几天
 楼主| 发表于 2025-1-27 10:12 | 显示全部楼层
459413498 发表于 2025-1-27 10:08
开源的 反而本地部署的多了

这个模型 6G 8G 12G都可以部署  


发表于 2025-1-27 10:15 | 显示全部楼层
m1screw 发表于 2025-1-27 10:02
论文里面说是用的"2048 NVIDIA H800 GPUs",但实际上他们手里还有50K左右的H100[1],也就是说实际的训练集 ...


等川普访问北京之后就全放了。限不如放。要救美国第二产业。
发表于 2025-1-27 10:19 | 显示全部楼层
你还不如指望川普放开限制,他不是扬言要废除拜登的每一个政策么
发表于 2025-1-27 10:33 来自手机 | 显示全部楼层
难不成真的和新能源汽车一样,又弯道超车,再一次遥遥领先了???
 楼主| 发表于 2025-1-27 10:51 | 显示全部楼层
clllovehh 发表于 2025-1-27 10:33
难不成真的和新能源汽车一样,又弯道超车,再一次遥遥领先了???

已经遥遥领先了。

模仿静夜思 写一个对美女的感慨
好的,用户让我模仿《静夜思》写一首对美女的感慨。首先,我需要回顾一下《静夜思》的结构和风格。李白的这首诗四句,每句五个字,押平声韵,语言简洁,意境深远。主题是思乡,通过床前明月光的景象引发对故乡的思念。

用户的需求是将这种结构应用到对美女的感慨上。需要保持五言绝句的形式,同时表达对美女的赞美或情感。要注意押韵,以及意象的选择。比如,原诗中的“明月光”可以转化为与美女相关的意象,如容貌、姿态等。

接下来,我需要确定主题方向。是表达一见倾心的惊艳,还是暗恋的惆怅,或者对美丽易逝的感慨?用户可能希望既有赞美又有情感,类似原诗的含蓄和意境。因此,选择自然景物来比喻美女,比如用花、月、水等意象。

然后考虑每句的内容。第一句通常设定场景,比如原诗的“床前明月光”,这里可以换成类似“镜前见玉颜”这样的场景,用镜子来引出美女的容貌。第二句承接,可能描述她的姿态或动作,比如“轻纱映月寒”,通过轻纱和月光营造氛围。

第三句转折,表达情感,比如“心随秋水动”,用秋水比喻眼神或情感的波动。第四句收尾,点明主题,如“何处觅芳兰”,表达追寻或无法触及的感慨。

需要注意押韵,通常第二、四句押韵。检查每句的平仄是否符合五言绝句的格律。可能需要调整用词,使诗句流畅自然,同时保持古典韵味。

另外,用户可能希望诗句既有赞美又不显得轻浮,所以用词要优雅,避免直白。使用自然意象来隐喻美女的美貌和气质,比如“玉颜”、“芳兰”等,既有美感又符合古诗的意境。

最后,通读检查是否传达出对美女的感慨,结构是否符合《静夜思》的框架,是否有押韵和节奏感。确保每句之间有连贯性,意境统一,情感表达到位。

静夜思·慕芳颜

(仿李白《静夜思》体)

窗前映月华,
素影曳轻纱。
举目惊姝色,
低眉念蒹葭。

注释
"窗前映月华"

化用原诗"床前明月光",以月光喻美人清冷气质,暗含"月下观美人"的古典意象。

"素影曳轻纱"

白描手法勾勒朦胧美感,"素影"显其淡雅,"轻纱"藏其绰约,呼应"疑是地上霜"的虚实交融。

"举目惊姝色"

转折处直抒惊艳,"惊"字暗含《洛神赋》"翩若惊鸿"之神韵,改原诗"举头望明月"的物理动作为心理震颤。

"低眉念蒹葭"

结句双关:既取《诗经》"蒹葭苍苍"的求慕之意,又以芦苇之柔美暗喻伊人风姿,较"低头思故乡"更显含蓄隽永。

创作思路
形神兼备:保留原诗20字框架与"触景-生情"结构,将"明月→思乡"转为"月华→慕美",实现形式承袭与内容创新。

意象重构:

视觉层:月光(冷色系)→轻纱(半透明)→蒹葭(曲线感),构建渐次柔化的美学序列。

文化层:嵌入《诗经》《洛神赋》典故,使慕美之情脱离俗艳,归于诗骚传统。

情感节制:以"惊-念"替代"望-思",克制中暗涌倾慕,契合东方含蓄审美,避免直露的脂粉气。

今古对照
李白原句        仿作新句        意境转换
床前明月光        窗前映月华        从实写物象到以景喻人
疑是地上霜        素影曳轻纱        从错觉认知到视觉延伸
举头望明月        举目惊姝色        从物理动作到心理震撼
低头思故乡        低眉念蒹葭        从空间思念到意象追寻
此作既存盛唐绝句的凝练筋骨,又染宋词婉约的朦胧肌理,可谓"借古人之瓶,酿今情之酒"。
 楼主| 发表于 2025-1-27 11:02 | 显示全部楼层
cyberms 发表于 2025-1-27 10:15
等川普访问北京之后就全放了。限不如放。要救美国第二产业。

对的 只有倾销 才能打败一切

老美居然不懂这个
 楼主| 发表于 2025-1-27 11:02 | 显示全部楼层
atiufo 发表于 2025-1-27 10:19
你还不如指望川普放开限制,他不是扬言要废除拜登的每一个政策么

你还别说 真有可能

倾销到你没法做自己的产品

只有倾销才能打败一切
发表于 2025-1-27 11:03 | 显示全部楼层
国内的东西都是吹上天,过阵子再看吧
发表于 2025-1-27 11:03 | 显示全部楼层
本帖最后由 cyberms 于 2025-1-27 11:05 编辑
kuram 发表于 2025-1-27 11:02
对的 只有倾销 才能打败一切

老美居然不懂这个


说实话东大手里面牌很多。

几百架的330要更新,要么330NEO要么787。

一个按2.5亿美元算,一百架就是250亿美元。
 楼主| 发表于 2025-1-27 11:04 | 显示全部楼层
cyberms 发表于 2025-1-27 11:03
说实话东大手里面牌很多。

几百架的330要更新,要么330NE0要么787。

所以大家互换啊  没问题

我卖给你B200  你买我飞机
发表于 2025-1-27 11:10 | 显示全部楼层
kuram 发表于 2025-1-27 11:04
所以大家互换啊  没问题

我卖给你B200  你买我飞机

卖的是SB250吧
发表于 2025-1-27 11:13 | 显示全部楼层
yoloh 发表于 2025-1-27 11:03
国内的东西都是吹上天,过阵子再看吧

这次可是老美那边大吹特吹的,倒是国内很低调,这才反应过来
发表于 2025-1-27 11:51 | 显示全部楼层
想什么呢,这公司训练的规模不比meta的llama3低,只是推理需要的性能确实比openai低很多。

老黄卖的又不是推理卡,训练卡的需求还是在的。

至于这公司去哪里找的这么多H100,谁知道呢(狗头
发表于 2025-1-27 12:03 | 显示全部楼层
我就想知道数万张H100是哪里来的?
发表于 2025-1-27 12:06 | 显示全部楼层
LocaVoiD 发表于 2025-1-27 09:25
背后几万张卡,不用听他们扯淡。
新路线不断验证试错需要的算力也是非常可观的,只拿最后模型训练的成本 ...

英伟达往国内出的货加起来也就大几十万张,你是说其中超过10%都被这家杭州的这家量化公司买走了?
发表于 2025-1-27 13:35 来自手机 | 显示全部楼层
讲道理,b200从今年初开始在美国突然就容易买了。我也很惊讶,supermicro追着我们加单。
发表于 2025-1-27 15:49 | 显示全部楼层
就怕老黄发现了50000张 H100, 根据美帝要求,严格封锁不就又遥遥领先了。
发表于 2025-1-27 15:56 来自手机 | 显示全部楼层
明显增加了显卡需求,因为模型都能本地运行了。利空的是训练。
发表于 2025-1-27 16:12 | 显示全部楼层

现在的ai仍然是算力严重饥渴,完全看不到需求上限在哪里。效率提升10倍不会让算力饱和。

现有的方法其实都是包含了对有限算力的自适应,现在有了这个效率革新的技术,马上就会被消化,节省出来的算力马上就会被新的方法也应用填充,并继续保持对硬件的强劲需求。
发表于 2025-1-27 17:57 | 显示全部楼层
yoloh 发表于 2025-1-27 11:03
国内的东西都是吹上天,过阵子再看吧

是啊,这次都是x上的老美业界拼命吹,真受不了。有什么大不了的,以后震撼还多着呢
发表于 2025-1-27 18:39 | 显示全部楼层
哈哈,等腰斩了,就搞快5060,再高也没必要,就刷刷网页偶尔编码下视频,不要斩就继续1660,反正又不是不能看网页
发表于 2025-1-27 20:30 来自手机 | 显示全部楼层
poleas 发表于 2025-1-27 12:06
英伟达往国内出的货加起来也就大几十万张,你是说其中超过10%都被这家杭州的这家量化公司买走了? ...

在采访时明确说2021年达到万张保底,看你怎么看待这个数字了。当然这些卡并不一定全是H100。
话说回来,就算是真的买走10%我也不惊讶。
发表于 2025-1-27 20:54 | 显示全部楼层
kuram 发表于 2025-1-27 10:51
已经遥遥领先了。

模仿静夜思 写一个对美女的感慨

老哥,我能不能传一本坑了的煌书给你,你让它帮我写完,这个续写最好10w字以上?
发表于 2025-1-27 21:33 | 显示全部楼层
有点水变油的感觉,让子弹飞会儿吧
发表于 2025-1-27 21:37 | 显示全部楼层
DeepSeek最大的亮点是其低廉的训练成本,怎么楼主搞得好像DeepSeek重新发明了大模型一样。
我不觉得普通用户能充分比较DeepSeek和其他大模型之间的性能差异。
发表于 2025-1-28 06:14 来自手机 | 显示全部楼层
nunnally 发表于 2025-1-27 12:54
老哥,我能不能传一本坑了的煌书给你,你让它帮我写完,这个续写最好10w字以上? ...

那你需要的是qwen2.5-1m 上下文比r1长
 楼主| 发表于 2025-1-28 12:55 | 显示全部楼层
nunnally 发表于 2025-1-27 20:54
老哥,我能不能传一本坑了的煌书给你,你让它帮我写完,这个续写最好10w字以上? ...

应该用高模型的没有问题 就是写出来是啥味 就不知道了
 楼主| 发表于 2025-1-28 12:56 | 显示全部楼层
男中音钢琴家 发表于 2025-1-27 21:37
DeepSeek最大的亮点是其低廉的训练成本,怎么楼主搞得好像DeepSeek重新发明了大模型一样。
我不觉得普通用 ...

你是搞AI的吗?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 20:30 , Processed in 0.014300 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表