你找我?
见谅只是突然想到这个, 当年脑被洗得太厉害了哈哈哈哈哈
玩梗可以理解, 但在一个geek 论坛里反复玩烂梗就显得不合时宜了.
东北有句话叫: 得个屁嚼不烂 赫敏 发表于 2024-2-21 14:56
软件跟不上。PC上的日常软件比手机上落后太多了,一堆菜单和不知道谁会用的功能让人浪费时间 ...
正是因为软件跟不上, 才需要硬件打好基础, 产业大哥出钱出力推动大家进化
所以英特尔愿意利用自己的影响力, 出钱出资源带动行业发展 我輩樹である 发表于 2024-2-21 18:47
这个不是春秋笔法。这贴既然说的npu,事实上就是做那几件生成系算法推理的事情,之前是用gpgpu的架构兼用 ...
这贴到并不是只说NPU, 第一个提问的第一句话就点明了, 在Intel的定义里CPU GPU NPU都是AI PC的一部分.
这也侧面解释为啥Intel要大幅提升MTL的集显能力, 并加入了AI workload智能调度功能.
简化OS和软件的烦恼, 让CPU GPU NPU都跑到自己最合适的workload才是理想的正道.
对于硬件来说, 就是不做选择题, 全都要. LocaVoiD 发表于 2024-2-21 21:32
营销角度用户觉得狼来了也正常,因为狼来了太多次了,还记得大明湖畔的VR吗?当年笔记本不加个VR Ready在Sp ...
能理解大家对新噱头的厌恶
但是相对于VR来说, AI PC已经是实实在在落地的东西.
而且看看微软的规划, 直接要在键盘上加入一个新的copilot 键, 如同当年新加Win键一样.
由此可知, AI PC已经是板上钉钉的事情, 始作俑者其实也并不是Intel. PPXG 发表于 2024-2-21 15:54
你说的这两个东西早就作为现代GPU的一部分被集成进去了,你要说牙膏厂莫名其妙弄了个PCIE的NPU加速卡,被 ...
弄PCIe NPU加速卡这个其实背后有故事的
首先要知道一点, 所谓Wintel 联盟早就不存在了, 两个不平等的势力有何联盟可言. 只有单方面抱大腿罢了.
其次微软自顾自的给AI OS定了一个算力标准, Intel暂时达不到, 不得不想各种办法曲线救国. YsHaNg 发表于 2024-2-21 21:28
今天早上还在和老板讨论这个东西 floorplan做的真漂亮 什么时候Google tpu不用再被博通卡脖子了这组人才 ...
一种让软件工程师设计硬件的美。 我輩樹である 发表于 2024-2-21 18:47
这个不是春秋笔法。这贴既然说的npu,事实上就是做那几件生成系算法推理的事情,之前是用gpgpu的架构兼用 ...
我只是提出了自己的理解,没有什么指责的意思; 而且对于一个起步的公司,强调自己优势的一方面也是正常。
通用 vs 专用 肯定是各有优缺点的, 再说现在用于专业市场的GPU一直再演化,也不完全和我们理解的显卡GPU一摸一样了。
BTW: 大牛你是做什么的? 威尼斯睡裤 发表于 2024-2-21 19:40
正是因为软件跟不上, 才需要硬件打好基础, 产业大哥出钱出力推动大家进化
所以英特尔愿意利用自己的影响 ...
没说不应该,应该,而且早就应该 YsHaNg 发表于 2024-2-21 21:28
今天早上还在和老板讨论这个东西 floorplan做的真漂亮 什么时候Google tpu不用再被博通卡脖子了这组人才 ...
TPU被博通卡脖子的地方,好像是IO有关的Serdes IP;这部分和小芯片的互联(Scale Up)很关键;
但这个IP,也是当年LSI旗下的一个团队做的很好,一直做下去; 最后被AVOGO/博通收购了。 fairness 发表于 2024-2-22 11:54
我只是提出了自己的理解,没有什么指责的意思; 而且对于一个起步的公司,强调自己优势的一方面也是正常 ...
通用计算的平台,按照现在的理解是属于工业母床,x86和nvidia的处理器就是这个范畴。在它们上面开发调试代码(换到ai场景就是训练调优模型),然后部署到边或者端的时候就可以使用特别设计的处理器运行,因为它们拥有降维的功耗性能比。而且在消费场景使用工业母床来运行不太符合工业化的流程。
手机是这样的,电脑也会这样。它们没有高低贵贱之分,都属于个人终端范畴。
我的研究领域是做大数据情感分析的,目前也是llm助攻的范畴。 我輩樹である 发表于 2024-2-22 12:30
通用计算的平台,按照现在的理解是属于工业母床,x86和nvidia的处理器就是这个范畴。在它们上面开发调试 ...
有道理! 我輩樹である 发表于 2024-2-21 15:32
定制的处理器比gpgpu更加高效。
可以跑400 t/s的LPU(Language Processing Units)和1070的die shot对比: ...
把训练好的所以参数全部换算成折射率做成光路迷宫,激光器输入,光敏ADC做输出,可以做到几乎零功耗的超高频推理,
但是谁敢说我模型就参数固化到不变了? kingofgu 发表于 2024-2-22 08:44
把训练好的所以参数全部换算成折射率做成光路迷宫,激光器输入,光敏ADC做输出,可以做到几乎零功耗的超 ...
做过光卷积芯片 不成功 性能功耗发热没法都解决 https://img.expreview.com/news/2024/03/21/AMD_02.jpg
虽晚但到 fairness 发表于 2024-2-21 16:27
此芯片支持的内存多大,可以支持多大的模型; 我看到的新闻测频都是用70B的模型,给出的数据都是芯片内的 ...
没有外接内存, 只靠片内sram, 400t/s的指标是9个机柜总共576片这玩意跑出来的 本帖最后由 zhuifeng88 于 2024-3-22 13:47 编辑
我輩樹である 发表于 2024-2-21 15:32
定制的处理器比gpgpu更加高效。
可以跑400 t/s的LPU(Language Processing Units)和1070的die shot对比: ...
这玩意400t/s per user是9个机柜总共576片加起来跑的, 一片这玩意什么都跑不了....
相比h100优势是latency optimize前提下的per user thgoughput
如果是throughput optimize的话h100的成本远比这玩意低
zhuifeng88 发表于 2024-3-22 13:38
这玩意400t/s per user是9个机柜总共576片加起来跑的, 一片这玩意什么都跑不了....
相比h100优势是laten ...
没什么奇怪的,这个芯片就是推理芯片,当然是低延迟重要,高通性主要用在训练环节。
这也体现在它的专用上。现在是大语言模型研发转落地的关键时刻,推出专用推理芯片是抢占这个市场。 本帖最后由 我輩樹である 于 2024-3-22 14:36 编辑
kingofgu 发表于 2024-2-22 16:44
把训练好的所以参数全部换算成折射率做成光路迷宫,激光器输入,光敏ADC做输出,可以做到几乎零功耗的超 ...
只要能有足够利润,把所有参数在光 刻阶段写死也不是不可能。 AI PC ,没见过比这个更智障的概念。 不是我说啊,你们家的显卡怎样了 还是看看旧的东西吧
新技术不能说不好 只是第一代技术我是不想碰了
第二代乃至第三代 再考虑 生成式AI的生态差不多已经被CUDA统治了。AMD拿什么来对抗CUDA呢? 你也是内置了病毒的AIPC[偷笑]
页:
1
[2]